RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      한국어 문장 분류의 성능 향상을 위한 임베딩 앙상블 방안에 대한 연구 = A study on embedding ensemble method for improving performance of korean sentences classification

      한글로보기

      https://www.riss.kr/link?id=T15334311

      • 저자
      • 발행사항

        서울 : 한양대학교 대학원, 2019

      • 학위논문사항

        학위논문(석사) -- 한양대학교 대학원 , 비즈니스인포매틱스학과 , 2019. 8

      • 발행연도

        2019

      • 작성언어

        한국어

      • 주제어
      • 발행국(도시)

        서울

      • 형태사항

        vi, 36 p. : 삽도 ; 26 cm.

      • 일반주기명

        권두 국문요지, 권말 Abstract 수록
        지도교수: 김종우
        참고문헌: p. 32-34

      • UCI식별코드

        I804:11062-000000110170

      • 소장기관
        • 한양대학교 안산캠퍼스 소장기관정보
        • 한양대학교 중앙도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      최근 소셜 네트워크 서비스(SNS, Social Networking Service)에서 생산되는 텍스트 데이터의 증가와 그래픽처리 장치의 발달로 딥러닝을 활용하여 텍스트 데이터를 자동으로 처리하는 텍스트 마이닝...

      최근 소셜 네트워크 서비스(SNS, Social Networking Service)에서 생산되는 텍스트 데이터의 증가와 그래픽처리 장치의 발달로 딥러닝을 활용하여 텍스트 데이터를 자동으로 처리하는 텍스트 마이닝 연구가 증가하고 있다. 이중 텍스트 임베딩(text embedding)은 단어를 국소표현이나 분산표현하는 기법으로 단어를 실수차원의 벡터에 대응시키는 것이다. 자연어 처리 응용 분야가 텍스트 요약, 문서 분류, 기계 번역, 개체명 인식, 챗봇 시스템 등으로 확대됨에 따라 자연어 처리에서 가장 기본이 되는 텍스트 임베딩에 대한 연구 역시 활발히 진행되고 있다. 하지만 단어 임베딩과 관련된 기존의 연구들은 영어를 비롯해 대부분 고립어의 특성을 가진 언어를 대상으로 진행되어 왔고 교착어의 특성이 있는 한국어 임베딩에 대한 연구는 미비하여 기존의 연구 방식을 그대로 적용하기에는 한계가 존재한다. 또한 단일 임베딩 방식이 아닌 앙상블된 임베딩 방식이라면 기존의 텍스트 분류 문제에 있어 더 높은 성능을 얻을 것이라 기대된다.
      본 연구에서는 교착어의 특성을 반영하여 임베딩 모델을 학습시키고 세 가지 임베딩 모델을 앙상블하여 한국어 문장 분류의 성능을 높이는 방법에 대해 소개한다. 각 세 가지 모델은 글자 단위의 임베딩과 Word2Vec, ELMo(Embedding from Language Model)가 활용되었다. 또한 교착어의 언어적 특성을 반영하기 위하여 단어의 구분을 띄어쓰기가 아닌 형태소 단위로 구분하여 사전 학습(pre-trained)을 진행하였다.
      본 연구는 한국어 텍스트 분류에 대한 성능 평가를 위하여 NSMC(naver sentiment movie corpus v1.0)의 데이터를 사용하였으며 각 모델별로 사전 학습을 진행하였다. 최종적으로 모델의 성능 평가를 정확도(accuracy)를 통해 진행하였으며 교차 검증(k-fold cross validation) 결과 기존 모델에 비해 텍스트 분류 성능이 뛰어남을 입증하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Recently, due to the increase of text data produced by SNS(Social Networking Service) and the evolution of GPU(Graphics Processing Unit) computing, text mining researches have been increased using deep learning to process text data automatically. Amon...

      Recently, due to the increase of text data produced by SNS(Social Networking Service) and the evolution of GPU(Graphics Processing Unit) computing, text mining researches have been increased using deep learning
      to process text data automatically. Among these researches, text embedding is a technique of expressing a word by local representation or distributed representation, and mapping a word to a vector of a real number
      dimension. As the applications of natural language processing are extended to text summarization, document classification, machine translation, object name recognition, and chatbot system, studies on text embedding, which is the most basic in natural language processing, are actively being carried out. However, previous researches related to word embedding has been conducted on languages such as English and there are limitations and insufficient studies on word embedding that reflects the characteristics of Korean. For these reasons, compares to the single embedding method, it is expected that the ensemble embedding method will achieve higher performance in text classification in Korean.
      This study introduces a method of enhancing the performance of Korean sentence classification by ensuring three embedding models by learning the embedding model reflecting the characteristics of the agglutinative language. In each of the three models, word-based embedding, Word2Vec, and ELMo (Embedding from Language Model) were used for ensemble. In order to reflect the linguistic characteristics of agglutinative language, words were divided into morpheme units instead of spaces, and the pre-trained was conducted.
      To show the usefulness of proposed approach, this study used data from NSMC (Naver Sentiment Movie Corpus v1.0) to evaluate the performance of Korean text classification. In conclusion, the proposed model was
      evaluated through the accuracy and it has been proved that the text classification performs superior compare to the previous models by the result of K-fold cross validation.

      더보기

      목차 (Table of Contents)

      • 국문요지 ⅴ
      • 제1장. 서론 1
      • 제1절. 연구 필요성 1
      • 제2절. 논문의 구성 2
      • 국문요지 ⅴ
      • 제1장. 서론 1
      • 제1절. 연구 필요성 1
      • 제2절. 논문의 구성 2
      • 제2장 관련연구 3
      • 제1절 단어의 벡터 표현 3
      • 1.1 카운트 기반의 임베딩 3
      • 1.2 예측 기반의 임베딩 5
      • 제2절 텍스트 분류를 위한 신경망 구조 9
      • 2.1 합성곱 신경망을 활용한 문장 분류 10
      • 2.2 임베딩의 확장과 결합 11
      • 제3장 연구 방법 13
      • 제1절 한국어 텍스트 분류를 위한 임베딩 13
      • 제2절 시스템의 구조 16
      • 2.1 글자 단위 임베딩을 활용한 문장 분류 16
      • 2.2 Word2Vec 임베딩을 활용한 문장 분류 18
      • 2.3 ELMo 임베딩을 활용한 문장 분류 21
      • 2.4 임베딩 앙상블을 활용한 문장 분류 24
      • 제4장 실험 26
      • 제1절 연구 데이터 소개 26
      • 제2절 실험 결과 28
      • 제5장 결론 30
      • 제1절 결론 및 추후 연구 방안 30
      • 참고문헌 32
      • ABSTRACT 35
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼