RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      다중 인스턴스 학습을 이용한 바이트 시퀀스 기반 악성코드 분류 = Malware Classification based on Byte Sequence using Multiple Instance Learning

      한글로보기

      https://www.riss.kr/link?id=T16671364

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      오늘날 정보통신 기술의 발전은 새로운 플랫폼을 대량으로 발생시킨다. 다양한 플랫폼의 증가는 공격자들에게 새로운 기회를 제공하고 공격자는 플랫폼을 공격벡터로 활용하여 자동화 도...

      오늘날 정보통신 기술의 발전은 새로운 플랫폼을 대량으로 발생시킨다. 다양한 플랫폼의 증가는 공격자들에게 새로운 기회를 제공하고 공격자는 플랫폼을 공격벡터로 활용하여 자동화 도구로 대량 생산한 악성코드를 배포한다. 분석가는 기계학습을 사용하여 대량의 악성코드에 대응하지만, 이 방법은 도메인 지식에 따라 성능이 변하고 프로세스 과정이 복잡한 단점이 있다. 이에 따라 전통적인 기계학습을 실제로 적용하기엔 많은 양의 인적 및 시간적 비용이 요구된다.
      기계학습의 단점을 극복하기 위한 방법으로 딥러닝 기술이 제안되었다. 딥러닝은 인공신경망 내부에 여러 종류의 레이어를 쌓아 데이터에서 특징을 자동으로 추출한다. 이러한 딥러닝 방법은 사람의 수작업 없이 고차원 특징을 자동으로 추출하여 학습하는 강력한 분류 모델이 된다. 악성코드 분류에서 딥러닝을 이용한 연구가 활발히 진행되고 있다. 특히 다른 모델에 비해 간단한 전처리를 가진 이미지 기반 딥러닝 기술이 연구되고 있으며 다양한 환경에서 높은 성능을 보인다. 하지만 바이트 시퀀스의 1차원 구조를 2차원 이미지로 변환하는 과정에서 1차원 시퀀스의 구조가 왜곡되고 악성코드 샘플의 크기가 딥러닝 모델이 허용하는 크기를 초과할 경우 허용되지 않은 크기만큼 샘플의 일부분이 손실되거나 보간법과 같은 기술을 사용하여 이미지에 변형을 가하게 된다. 이렇게 바이너리 파일이 손실되거나 변형될 경우 악성코드를 구분할 수 있는 중요한 시퀀스가 사라진다.
      이러한 문제점을 해결하기 위해 다중 인스턴스 학습 구조 (MIL: Multiple Instance Learning)를 적용한다. 또한 다중 인스턴스 학습의 전처리 구조를 변경함으로써 1차원 구조의 변형을 최소화하여 제안한 모델에 적합한 데이터로 변환한다. 다중 인스턴스 학습은 샘플의 크기에 탄력적인 특징을 가지기 때문에 위의 문제인 데이터 왜곡, 변형, 손실 문제를 해결할 수 있다.
      기존의 다중 인스턴스 모델 구조는 악성코드 분류에 적합하지 않으므로 구조를 악성코드 분류에 맞게 변경한다. 악성코드 분류 데이터세트는 딥러닝 기반 모델을 실험한 저자에게서 제공받은 다중 분류 데이터세트를 사용하고. 다양한 전처리와 모델을 사용하여 평가한다. 실험 결과 기존에 제시되었던 기계학습 방법과 딥러닝 모델에서 제안한 방법이 5가지 성능 지표에서 모두 높은 성능을 보여준다.
      다중 인스턴스 학습 구조의 베이스로 삼은 AbMIL 모델은 어텐션이 가지는 시각화의 이점을 얻는다. 시각화는 이미지 모델에서 많이 사용되는 Gradient Class Activation Map(Grad-Cam)을 비교한다. 제안한 방법은 이미지 패치 크기만큼 특정 시퀀스의 영역만을 제시하기 때문에 Grad-Cam의 모호한 결과에 비해 분석가에게 도움을 줄 수 있다. 또한 패치 크기만큼 특정 시퀀스의 영역만을 제시하기 때문에 전문가는 시퀀스를 분석할 경우 악성코드 분석에 도움을 주는 정보를 얻게 된다. 그러므로 본 연구에서 제안한 다중 인스턴스 학습 모델은 악성코드 분류와 분석에 도움이 될 것으로 기대한다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Today, the development of information and communication technology spawns a large number of new platforms. The proliferation of diverse platforms presents new opportunities for attackers, who leverage platforms as attack vectors and distribute mass-pr...

      Today, the development of information and communication technology spawns a large number of new platforms. The proliferation of diverse platforms presents new opportunities for attackers, who leverage platforms as attack vectors and distribute mass-produced malware with automated tools. Analysts use machine learning to respond to large volumes of malware, but this method suffers from the drawbacks of performance variations depending on domain knowledge and process complexity. Therefore, a large amount of human and time costs are required to apply traditional machine learning in practice.
      Deep learning technology has been proposed as a method for overcoming the drawbacks of machine learning. Deep learning stacks different kinds of layers inside artificial neural networks to automatically extract features from data. Such a deep learning method becomes a powerful classification model that automatically extracts and learns high-dimensional features without human manual work. Research using deep learning in malignant code classification is being actively conducted. In particular, image-based deep learning technology, which has simpler preprocessing than other models, has been researched and has shown high performance in various environments. However, in the process of converting the one-dimensional structure of the byte sequence into a two-dimensional image, if the structure of the one-dimensional sequence is distorted and the size of the malicious code sample exceeds the size allowed by the deep learning model, some of the samples will be Unacceptable Sizes Only You can transform the image using techniques such as loss or interpolation. When binary files are lost or distorted in this way, important sequences that distinguish malware disappear.
      To solve this problem, we apply Multiple Instance Learning (MIL). In addition, by modifying the preprocessing structure of multi-instance learning, we minimize the deformation of the one-dimensional structure and transform it into data suitable for the proposed model. Multi-instance learning has the characteristic of being elastic to the sample size, so it can solve the above problems of data distortion, deformation, and loss.
      The existing multi-instance model structure is not suitable for malware classification, so we modify the structure to suit malware classification. The malware classification dataset uses a multi-classification dataset provided by the authors who have experimented with deep learning-based models. Evaluate using different pretreatments and models. As a result of the experiment, the existing machine learning method and the method proposed by the deep learning model show high performance in all five performance indicators.
      AbMIL models underlying multi-instance learning structures gain the visualization benefits of attention. The visualization compares the Gradient Class Activation Map (Grad-Cam) commonly used in image models. The proposed method only presents regions of a specific sequence that are the same as the image patch size, which is helpful for analysts compared to Grad-Cam's ambiguous results. Also, since only the region of the specific sequence is presented by the patch size, the expert will get useful information for malware analysis when analyzing the sequence. Therefore, we expect that the multi-instance learning model proposed in this study will be useful for malware classification and analysis.

      더보기

      목차 (Table of Contents)

      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목적 3
      • 1.3 논문 기여 4
      • 1.4 논문 구성 4
      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 연구 목적 3
      • 1.3 논문 기여 4
      • 1.4 논문 구성 4
      • 2. 관련 연구 5
      • 2.1 정적 분석 기반 기계학습 모델 5
      • 2.2 이미지 기반 합성곱 모델 6
      • 3. 연구 배경지식 7
      • 3.1 이미지 기반 합성곱 모델 7
      • 3.2 다중 인스턴스 학습 8
      • 4. 제안 방법 11
      • 4.1 개요 11
      • 4.2 지그재그 패치 전처리 11
      • 4.3 MLP Mixer 13
      • 4.4 Self Attention 15
      • 4.5 AbMILP 16
      • 4.6 모델 평가 18
      • 5. 제안 방법 18
      • 5.1 실험 환경 세팅 18
      • 5.2 다중 분류 데이터 세트 19
      • 5.3 성능 평가 지표 22
      • 5.4 베이스라인 구축 24
      • 5.4.1 딥러닝 기반 베이스라인 25
      • 5.4.2 기계학습 기반 베이스라인 27
      • 5.5 실험 내용 및 결과 29
      • 6. 결론 및 향후계획 32
      • 참고문헌 33
      • Abstract(영문초록) 37
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼