상단메뉴 바로가기 본문 내용 바로가기

대용량 정상/악성파일 Ⅰ(training set)

  • 요약
    • Dataset ID : KISA_CISC2017_datachallenge_Malwares.01
    • 이          름 : Malwares Training set
    • 제 공 자 : KISA R&D기술공유센터, 하우리, 세인트시큐리티
  • 설명

KISA와 한국정보보호학회가 공동개최한 정보보호 R&D 데이터챌린지 대회의 “악성코드 탐지” 트랙 예선에 활용된 7500개씩 2세트, 총 15000개의 대용량 정상, 악성파일 샘플이다.

KISA R&D기술공유센터와 하우리, 세인트시큐리티에서 제공한 정상, 악성코드 데이터셋으로, 수집기간, 악성기능 등의 제한 없이 랜덤하게 구성되어 있다. 정답지를 통해 정상 0, 악성 1로 탐지결과를 확인할 수 있다.

본 데이터셋은 정상코드와 악성코드를 구분하여 탐지할 수 있는 알고리즘과 프로그램을 제시하는 대회에 활용된 데이터셋으로, 탐지 정확도를 측정하고, 알고리즘을 개선하는 등 다양한 용도로 활용 가능하다.

  • 추가정보
    • 파일크기 : 6.733GB
      - 1set : KISA-CISC2017-Malware-1st (3.443GB)
      - 2set : KISA-CISC2017-Malware-2nd (3.290GB)
    • 키 워 드 : 악성코드, 정상코드, 탐지결과, 탐지 정확도, 알고리즘
    • 데이터셋을 활용한 대회: 정보보호 R&D 데이터챌린지 2017  [관련 링크]
  • 데이터셋 구조
    • 정상, 악성파일 원본
    • 정답지 : MD5형태의 filename, class(정상파일 0, 악성파일 1로 표기)
  • 샘플데이터
샘플데이터