KISA와 한국전력공사, 한국정보보호학회가 공동 개최한 2019 K-사이버 시큐리티 챌린지 대회의 “AI기반 악성코드 탐지” 트랙에 활용된 10000개씩 4세트, 총 40000개의 대용량 정상, 악성파일 샘플이다.
KISA와 안랩, 세인트시큐리티, 이스트시큐리티, 하우리에서 제공한 정상, 악성코드 데이터셋으로, 다양한 악성코드를 포함하는 데이터셋 구성을 위해 패킹, 백신 진단명 기반 악성코드 유형 분석 결과 등을 반영하여 구성되어 있다.
Training set의 경우 정답지 파일을 통해 정상0, 악성 1로 탐지결과를 확인할 수 있다.
본 데이터셋은 정상코드와 악성코드를 구분하여 자동으로 탐지할 수 있는 알고리즘과 프로그램을 제시하는 대회에 활용된 데이터셋으로, 탐지 정확도를 측정하고, AI 알고리즘을 개선하는 등 다양한 용도로 활용 가능하다.