상단메뉴 바로가기 본문 내용 바로가기

대용량 정상, 악성코드 3 (2018)

  • 요약
    • Dataset ID : KISA-datachallenge2018-Malwares.03
    • 이         름 : Malwares Training and Test set
    • 제 공 자 : KISA, 안랩, 세인트시큐리티, 이스트시큐리티, 하우리
  • 설명

KISA와 한국정보보호학회가 공동개최한 2018 정보보호 R&D 데이터챌린지 대회의 “AI기반 악성코드 탐지” 트랙에 활용된 10000개씩 5세트, 총 50000개의 대용량 정상, 악성파일 샘플이다.

KISA와 안랩, 세인트시큐리티, 이스트시큐리티, 하우리에서 제공한 정상, 악성코드 데이터셋으로, 다양한 악성코드를 포함하는 데이터셋 구성을 위해 패킹, 백신 진단명 기반 악성코드 유형 분석 결과 등을 반영하여 구성되어 있다. Training set의 경우 정답지 파일을 통해 정상0, 악성1로 탐지결과를 확인할 수 있다.

본 데이터셋은 정상코드와 악성코드를 구분하여 자동으로 탐지할 수 있는 알고리즘과 프로그램을 제시하는 대회에 활용된 데이터셋으로, 탐지 정확도를 측정하고, AI 알고리즘을 개선하는 등 다양한 용도로 활용 가능하다.

  • 추가정보
    • 파일크기 : 14.3GB
    • 동작 환경 : 32bit Windows에서 동작하는 데이터
    • 데이터셋을 활용한 대회 : 정보보호 R&D 데이터챌린지 2018  [관련 링크]
    • Padding 추가 : 데이터 끝에 KISA(4byte) 추가
    • 파일명 : 데이터의 MD5 해쉬값
    • 확장자 : .vir
  • 데이터셋 구조
    • 01. 2018_TrainSet - 라벨O
    • 02. 2018_예선_1차 - 라벨O
    • 03. 2018_예선_2차 - 라벨O
    • 04. 2018_TestSet_본선_1차 - 라벨X
    • 05. 2018_TestSet_본선_2차 - 라벨X
    • ※ 본선 TestSet은 정답지 미제공
  •                                    
  • 샘플데이터
샘플데이터