KISA와 한국정보보호학회가 공동개최한 정보보호 R&D 데이터챌린지 대회의 “악성코드 탐지” 트랙 본선에 활용된 7500개씩 2세트, 총 15000개의 대용량 정상, 악성파일 샘플이다.
KISA R&D기술공유센터와 하우리, 세인트시큐리티에서 제공한 정상, 악성코드 데이터셋으로, 수집기간, 악성기능 등의 제한 없이 랜덤하게 구성되어 있다. 정상 0, 악성 1 형태로 정답지를 추출해 메일로 제출하면 순위확인 페이지에서 본인의 점수와 순위를 확인할 수 있다.
본 데이터셋은 정상코드와 악성코드를 구분하여 탐지할 수 있는 알고리즘과 프로그램을 제시하는 대회에 활용된 데이터셋으로, 탐지 정확도를 측정하고, 알고리즘을 개선하는 등 다양한 용도로 활용 가능하다.