오픈 소스 기반의 안드로이드 운영체제는 국내 뿐만 아니라 전세계적으로 모바일 운영체제 시장에서 가장 큰 점유율을 차지하고 있으며, 안드로이드 시장의 확대와 함께 안드로이드 운영체...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16684529
서울 : 국방대학교 관리대학원, 2023
학위논문(석사) -- 국방대학교 관리대학원 , 사이버전 사이버전 협동과정 , 2023. 1
2023
한국어
API-Call ; 주성분분석 ; Dimensional Reduction ; LGBM ; Random Forest ; KNN
서울
; 26 cm
지도교수: 이수진
I804:11070-200000655039
0
상세조회0
다운로드국문 초록 (Abstract)
오픈 소스 기반의 안드로이드 운영체제는 국내 뿐만 아니라 전세계적으로 모바일 운영체제 시장에서 가장 큰 점유율을 차지하고 있으며, 안드로이드 시장의 확대와 함께 안드로이드 운영체...
오픈 소스 기반의 안드로이드 운영체제는 국내 뿐만 아니라 전세계적으로 모바일 운영체제 시장에서 가장 큰 점유율을 차지하고 있으며, 안드로이드 시장의 확대와 함께 안드로이드 운영체제를 대상으로 한 악성코드의 수와 종류도 다양해지고 있다. 이와 함께 최근 API Call 정보를 기반으로 하는 안드로이드 악성코드를 탐지 및 분류하는 연구 또한 활발하게 진행되고 있다.
그러나 API Call 기반의 악성코드 탐지 및 분류는 방대한 데이터 양과 고차원 특성으로 인하여 일반적인 컴퓨팅 환경에서는 악성코드 분석 및 학습 모델 구축 과정에 많은 시간과 자원이 소모된다는 문제점이 있으며, 불필요한 특성으로 인해 정확한 분석이 어렵기 때문에 효과적인 성능 구현이 제한된다.
따라서 본 연구에서는 방대한 양과 고차원의 API Call 정보를 포함하는 CICAndMal2020 데이터세트를 대상으로 주성분분석(PCA, Principal Component Analysis)을 사용하여 차원을 대폭 축소시킨 후 LightGBM, Random Forest, k-Nearest Neighbor 등의 다양한 분류모델을 적용하여 학습 및 분석하였다. 실험 결과 주성분분석이 원본 데이터의 특성을 그대로 유지하면서 데이터 특성 차원은 대폭 감소시키고 우수한 악성코드 분류 성능을 달성한다는 것을 확인하였다. 이진분류는 주성분 추출 과정을 통해 기존 9,503개의 특성 중 약 1% 수준의 특성 개수만으로 LightGBM 기준 96.8%의 정확도를 달성하였는데 이는 이전 연구들과 비슷한 수준의 정확도를 나타내었다. 또한 다중분류에서는 주성분 70개를 추출하고 Random Forest를 적용하였을 때 86.8%의 정확도를 달성하였으며, 이는 기존 특성 집합을 전체 크기의 약 0.7% 수준으로 대폭 감소시키면서 이전 연구에 비해 매우 향상된 성능을 나타낸 것이다.
다국어 초록 (Multilingual Abstract)
Android operating system open source-based accounts the largest share of the mobile operating system market not only in Republic of Korea but also in the world. With the expansion of the Android market, the number and types of malicious code targeting...
Android operating system open source-based accounts the largest share of the mobile operating system market not only in Republic of Korea but also in the world. With the expansion of the Android market, the number and types of malicious code targeting the Android operating system are also diversifying. Recently, studies on the detection and classification of Android malware based on API Call sequence also have been actively carried out.
However, API Call sequence based malware classification has serious problems such as, in a typical computing environment, excessive time and resource consumption in terms of malware analysis and learning model construction due to the vast amount of data and high-dimensional characteristic of features, making it hard to analyze accurately due to unnecessary characteristics.
In this study, we analyzed various classification models such as LightGBM, Random Forest, and k-Nearest Neighbors after significantly reducing the dimension of features using PCA(Principal Component Analysis) for CICAndMal2020 dataset containing vast API Call information. The experimental result shows that PCA significantly reduces the dimension of features while maintaining the characteristics of the original data and achieves efficient malware classification performance. The binary classification achieves similar accuracy to previous studies, achieving 96.8% accuracy based on LightGBM with only about 1% of the 9,503 characteristics through the main component extraction process. In addition, the multi-class classification achieves 86.8% accuracy based on Random Forest with 70 principal components extracted from the process and higher levels of performance than previous studies, significantly reducing the characteristics set to about 0.7% of the total size.