KISA와 한국정보보호학회가 공동개최한 2018 정보보호 R&D 데이터챌린지 대회의 “AI기반 취약점 자동탐지” 트랙에 활용된 취약점이 포함된 바이너리 데이터셋 95종이다.
시스템 해킹과 관련된 CWE 취약점 목록을 추출하여 1개의 바이너리 당 1개의 취약점이 포함되도록 개발한 후 메모리 프로텍션 우회 기법이나 바이너리 복잡도 등으로 난이도를 조절하였다. 난이도는 공개된 오픈소스 툴을 활용하여 풀릴 수 있는 수준으로, 미국 CGC(Cyber Grand Challenge 2016) 문제보다 낮게 개발되었다.
본 데이터셋은 바이너리의 취약점을 자동으로 탐지하고 공격할 수 있는 알고리즘과 프로그램을 제시하는 대회에 활용된 데이터셋으로, 탐지 정확도를 측정하고, AI 알고리즘을 개선하는 등 다양한 용도로 활용 가능하다.