고려대학교 해킹대응기술연구실에서 연구하고 있는 프로파일링 기반 악성앱 탐지 시스템(Andro-AutoPsy)의 성능검증을 위해 활용한 데이터셋으로 VirusShare, Contagio 등 악성앱 공유 사이트에서 수집한 9,990개 악성앱과 구글 플레이스토어에서 수집한 109,193개 정상앱으로 구성되어 있다.
프로파일링 기반 악성앱 탐지 시스템(Andro-AutoPsy)은 앱의 File 정보, 제작자 정보, API 호출 정보, 권한 요청 정보 등을 종합적으로 프로파일링해 악성앱을 탐지하고 유사한 앱을 그룹으로 분류할 수 있는 기술로 본 데이터셋을 활용해 우수한 성능을 보이는 것을 확인하였다.
본 데이터셋에 포함된 악성앱은 악성앱 공유 사이트에서 수집한 파일을 VirusTotal 조회를 통해 악성여부를 다시 한번 확인한 앱들로 데이터의 신뢰성 확보를 위해 노력하였고, 또한, AntiVirus의 탐지명 정보 등을 추가적으로 포함하고 있어 다양한 안드로이드 악성 앱 탐지, 분류 기술의 성능평가에 활용 가능하다.
또한, 국내 많은 연구자들이 악성앱 탐지 및 분류 기술의 성능평가에 소규모 데이터셋(300-500개 수준)을 이용하여 성능평가를 진행하다 보니 왜곡된 탐지 결과를 내는 경우도 많고, 벤치마킹할 수 있는 대상 기술이 없어 본인들이 개발한 시스템의 성능 결과의 우수성에 대해 객관적인 입증이 어려웠었는데, 이러한 문제점들을 해소하는데 큰 도움이 될 것으로 기대된다.
- Jae-wook Jang, Hyunjae Kang, Jiyoung Woo, Aziz Mohaisen, and Huy Kang Kim, “Andro-AutoPsy: Anti-malware system based on similarity matching of malware and malware creator-centric information,” Digital Investigation, vol. 14, pp. 17?35, 2015.