상단메뉴 바로가기 본문 내용 바로가기

정상/악성앱

  • 요약
    • Dataset ID : KU_2017_ Andro-AutoPsy
    • 이         름 : 정상 / 악성앱
    • 제 공 자 : 고려대학교 해킹대응기술연구실
    • 수집기간 : 2011~2015
    • 수집방법 : 악성앱 공유 사이트, 구글 플레이스토어에서 수집
  • 설명

고려대학교 해킹대응기술연구실에서 연구하고 있는 프로파일링 기반 악성앱 탐지 시스템(Andro-AutoPsy)의 성능검증을 위해 활용한 데이터셋으로 VirusShare, Contagio 등 악성앱 공유 사이트에서 수집한 9,990개 악성앱과 구글 플레이스토어에서 수집한 109,193개 정상앱으로 구성되어 있다.

프로파일링 기반 악성앱 탐지 시스템(Andro-AutoPsy)은 앱의 File 정보, 제작자 정보, API 호출 정보, 권한 요청 정보 등을 종합적으로 프로파일링해 악성앱을 탐지하고 유사한 앱을 그룹으로 분류할 수 있는 기술로 본 데이터셋을 활용해 우수한 성능을 보이는 것을 확인하였다.

본 데이터셋에 포함된 악성앱은 악성앱 공유 사이트에서 수집한 파일을 VirusTotal 조회를 통해 악성여부를 다시 한번 확인한 앱들로 데이터의 신뢰성 확보를 위해 노력하였고, 또한, AntiVirus의 탐지명 정보 등을 추가적으로 포함하고 있어 다양한 안드로이드 악성 앱 탐지, 분류 기술의 성능평가에 활용 가능하다.

또한, 국내 많은 연구자들이 악성앱 탐지 및 분류 기술의 성능평가에 소규모 데이터셋(300-500개 수준)을 이용하여 성능평가를 진행하다 보니 왜곡된 탐지 결과를 내는 경우도 많고, 벤치마킹할 수 있는 대상 기술이 없어 본인들이 개발한 시스템의 성능 결과의 우수성에 대해 객관적인 입증이 어려웠었는데, 이러한 문제점들을 해소하는데 큰 도움이 될 것으로 기대된다.

  • 추가정보
    • 파일크기 : 총218G
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#0.7z(25.12 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#1.7z(25.12 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#2.7z(27.84 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#3.7z(25.41 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#4.7z(25.59 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#5.7z(24.73 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#6.7z(28.9 GB)
      - 정상 앱 : Benign_109193_for_Andro_AutoPsy_#7.7z( 29.21 GB)
      - 앱 추가 정보(각 정상 앱에 대한 제작자 정보, URL 정보, 패키지 명, 게재일 정보 파일) : GooglePlay_109193_140720.csv 및 SHA 파일 : sample_list_sha256_109193.csv
      - 악성앱 : Malware_9990_for_Andro_AutoPsy.7z(12.58 GB) 및 SHA 파일 : sample_list_sha256_9990.csv
    • 키워드: 악성앱, machine learning, data mining, clustering, classification
    • 데이터셋을 활용하여 검증된 기술
      - 제작자 정보와 앱의 특징을 이용, 유사도 기반 악성앱 탐지 및 분류 시스템 (Andro-AutoPsy, http://ocslab.hksecurity.net/andro-autopsy)
    • 본 데이터셋은 고려대학교 해킹대응기술연구실에서 제작되었으며, 본 데이터셋을 이용하여 논문작성 시 다음 논문을 참고문헌으로 반드시 인용해 주시기
      바랍니다.

      - Jae-wook Jang, Hyunjae Kang, Jiyoung Woo, Aziz Mohaisen, and Huy Kang Kim, “Andro-AutoPsy: Anti-malware system based on similarity matching of malware and malware creator-centric information,” Digital Investigation, vol. 14, pp. 17?35, 2015.

  • 데이터셋 구조
    • 악성/정상 앱 데이터셋
      - Filename : 앱 이름
      - 백신진단명 : .Kaspersky, F-Secure, ClamAV, AVAST 4사 진단명
      - 해쉬값: 앱 SHA 256 해쉬값
      - Total Ratio : Virus Total 에 적재된 상용 AV 들에서 감지한 비율
      - Scan date : Virus Total 에 확인한 날짜
    • 앱 추가 정보
      - 제작자 정보 : 제작자가 앱마켓에 업로드시 기재한 본인 정보
      - URL 정보 : 앱과 관련된 부가 정보 (앱 대표 홈페이지 등)
      - 패키지 명 : 앱 패키지 명
      - 게재일 정보 : 스토어에 게시된 날짜
      - 해쉬값
  • 샘플데이터
샘플데이터