상단메뉴 바로가기 본문 내용 바로가기

대용량 악성·정상앱 1

  • 요약
    • Dataset ID : KU-2018-Android
    • 이         름 : 안드로이드 정상/악성 앱
    • 제 공 자 : 고려대학교 해킹대응기술연구실
    • 수집기간 : 2011~2015
    • 수집방법 : 악성앱 공유 사이트, 구글 플레이스토어에서 수집
  • 설명

2018년도 정보보호 R&D 데이터 챌린지 대회의 "AI기반 안드로이드 악성앱 탐지" 트랙에 활용된 안드로이드 앱 데이터셋이다.

고려대학교 해킹대응기술연구실에서 연구한 프로파일링 기반 악성앱 탐지 시스템(Andro-Profiler)의 성능검증에 기반이 된 데이터셋으로, VirusShare, Contagio 등 악성앱 공유 사이트에서 수집한 4,694개 악성앱과 구글 플레이스토어에서 수집한 9,306개 정상앱으로 구성되어 있다. 모든 앱 파일은 malwares.com 및 VirusTotal 조회를 통해 악성여부를 재확인하여, 데이터의 신뢰성 확보를 위해 노력하였다.

본 데이터셋은 정보보호 R&D 데이터 챌린지 대회의 예선 학습용, 예선 평가용, 본선 1차 평가용, 본선 2차 평가용으로 구분되어 있다. 또한 정상앱과 악성앱이 구분되어 있어, 다양한 안드로이드 악성 앱 탐지 기술의 성능평가에 활용 가능할 것으로 기대된다.

  • 추가정보
    • 파일크기 : 총 17.4GB
      - KU-CISC2018-Android-Pre-Train.zip (예선 학습용, 7.26GB)
      - KU-CISC2018-Android-Pre-Test.zip (예선 평가용, 4.72GB)
      - KU-CISC2018-Android-Final-1st-Test.zip (본선 1차 평가용, 2.66GB)
      - KU-CISC2018-Android-Final-2nd-Test.zip (본선 2차 평가용, 2.81GB)
    • 키 워 드 : Android, malware, machine learning
    • 데이터셋을 활용한 대회 : 정보보호 R&D 데이터챌린지 2018  [관련 링크]
    • 관련 연구 : Andro-Profiler  [관련 링크]
    • 본 데이터셋은 고려대학교 해킹대응기술연구실에서 제작되었으며, 본 데이터셋을 이용하여 논문작성 시 다음 논문을 참고문헌으로 반드시 인용해 주시기
      바랍니다.

      - Jang, Jae-wook, et al. "Detecting and classifying method based on similarity matching of Android malware behavior with profile." SpringerPlus 5.1 (2016): 1.

      - Jang, Jae-wook, et al. "Andro-profiler: anti-malware system based on behavior profiling of mobile malware." Proceedings of the companion publication of the 23rd international conference on World wide web companion. International World Wide Web Conferences Steering Committee, 2014. (WWW 2014)

  • 데이터셋 구조
    • 안드로이드 정상/악성 APK 파일
      - normal, malware 폴더로 정상/악성 앱 여부 구분
      - 파일 이름: APK 파일의 SHA-256 해쉬값
  •                                    
  • 샘플데이터
샘플데이터