KISA에서 정보보호 R&D과제를 통해 개발된 “악성코드 프로파일링 시스템"의 악성코드 변종탐지, 그룹분류 기술 성능평가에 활용된 5,045개 샘플이다.
악성코드 변종탐지 기술은 악성코드 실행 과정에서 수집된 행위정보(API 호출정보)를 기반으로 2-gram 유사도 분석을 통해 변종 여부를 탐지하는 기술로 본 데이터 셋 중 3개 주요 백신 SW에서 동일한 악성코드로 진단(동일한 진단명)하는 샘플들을 우수한 성능으로 변종 탐지하는 것을 확인하였다.
본 데이터셋은 Packer 정보, Strings, Import DLL/API 정보, 엔트로피 VIEW, 행위정보(실행 중 호출 API 시퀀스), 외부 접속 정보 등의 정적/동적 분석 정보가 포함되어 있어 악성코드 동향 분석 및 대응기술 연구, 악성코드 자동 분석시스템 개발, 새로운 악성코드 변종 탐지 기술 연구, 특정 악성행위를 유발하는 악성코드 탐지 기능 검증 등 다양한 용도로 활용 가능하다.
예를 들어 악성코드 유포경로, Packing 기술, Anti-VM 기술 분석결과를 활용해 최근 지능화된 악성코드들이 사용하는 분석 회피/지연 기술을 파악해 대응 기술 개발에 활용하고, 엔트로피 VIEW 분석을 통한 Packing 탐지 알고리즘 연구 등에 활용할 수 있다. 또한, 악성코드 샘플 중 루트킷, 애드웨어 등의 기능을 보유한 악성코드만 별도로 추출해 특정 악성코드 대응 탐지 기능 검증 용도로 활용 가능하고, Strings, Import DLL/API 정보, 엔트로피 VIEW, 실행 중 호출 API 정보 등의 추출해 새로운 변종 탐지 기술 연구의 연구 데이터로 활용 될 것으로 기대한다.