RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI우수등재

      트랜스포머와 BERT로 구현한 한국어 형태소 분석기의 성능 분석 = Performance Analysis of Korean Morphological Analyzer based on Transformer and BERT

      한글로보기

      https://www.riss.kr/link?id=A106985190

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      This paper introduces a Korean morphological analyzer using the Transformer, which is one of the most popular sequence-to-sequence deep neural models. The Transformer comprises an encoder and a decoder. The encoder compresses a raw input sentence into...

      This paper introduces a Korean morphological analyzer using the Transformer, which is one of the most popular sequence-to-sequence deep neural models. The Transformer comprises an encoder and a decoder. The encoder compresses a raw input sentence into a fixed-size vector, while the decoder generates a morphological analysis result for the vector. We also replace the encoder with BERT, a pre-trained language representation model. An attention mechanism and a copying mechanism are integrated in the decoder. The processing units of the encoder and the decoder are eojeol-based WordPiece and morpheme-based WordPiece, respectively. Experimental results showed that the Transformer with fine-tuned BERT outperforms the randomly initialized Transformer by 2.9% in the F1 score. We also investigated the effects of the WordPiece embedding on morphological analysis when they are not fully updated in the training phases.

      더보기

      국문 초록 (Abstract)

      본 논문은 Transformer로 구현한 한국어 형태소 분석기를 다룬다. Transformer는 최근에 가장 널리 사용되는 sequence-to-sequence 모델 중 하나이다. Transformer는 인코더와 디코더로 구성되어 있는데 인코...

      본 논문은 Transformer로 구현한 한국어 형태소 분석기를 다룬다. Transformer는 최근에 가장 널리 사용되는 sequence-to-sequence 모델 중 하나이다. Transformer는 인코더와 디코더로 구성되어 있는데 인코더는 원문을 고정된 크기의 벡터로 압축시키고 디코더는 이 벡터를 이용하여 형태소 분석 결과를 생성해 낸다. 본 논문에서는 또한 Transformer의 인코더를 BERT로 대체해 본다. BERT는 대용량의 학습데이터를 이용하여 미리 학습시켜 놓은 언어 표현 모델이다. 디코더에는 주의 메커니즘과 복사 메커니즘을 도입하였다. 인코더와 디코더에서의 처리 단위는 각각 어절 단위 WordPiece와 형태소 단위의 WordPiece를 사용하였다. 실험을 통해, BERT의 파라미터를 문제에 맞게 재조정했을 때의 성능이 Transformer를 임의의 값으로 초기화하여 사용했을 때에 비해 F1에서 2.9%의 성능 향상을 보임을 알 수 있었다. 또한 학습단계에서 충분히 학습되지 못한 WordPiece의 임베딩이 형태소 분석에 어떤 영향을 미치는지도 살펴보았다.

      더보기

      참고문헌 (Reference)

      1 최병서, "신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기" 한국정보과학회 47 (47): 70-77, 2020

      2 이창기, "Structural SVM을 이용한 한국어 띄어쓰기 및 품사 태깅 결합 모델" 한국정보과학회 40 (40): 826-832, 2013

      3 이건일, "Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅" 한국정보과학회 44 (44): 57-62, 2017

      4 I. Sutskever, "Sequence to sequence learning with neural networks" 2015

      5 S. Na, "Phrase-Based Statistical Model for Korean Morpheme Segmentation and POS Tagging" 571-573, 2014

      6 D. Bahdanau, "Neural machine translation by jointly learning to align and translate"

      7 Sepp Hochreiter, "Long short-term memory" 9 (9): 1735-1780, 1997

      8 H. Hwang, "Korean Morphological Analysis using Sequence-to-sequence learning with Copying mechanism" 443-445, 2016

      9 C. Park, "Korean Morphological Analysis and Part-Of-Speech Tagging with LSTMCRF based on BERT" 34-36, 2019

      10 J. Gu, "Incorporating copying mechanism in sequence-to-sequence learning"

      1 최병서, "신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기" 한국정보과학회 47 (47): 70-77, 2020

      2 이창기, "Structural SVM을 이용한 한국어 띄어쓰기 및 품사 태깅 결합 모델" 한국정보과학회 40 (40): 826-832, 2013

      3 이건일, "Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅" 한국정보과학회 44 (44): 57-62, 2017

      4 I. Sutskever, "Sequence to sequence learning with neural networks" 2015

      5 S. Na, "Phrase-Based Statistical Model for Korean Morpheme Segmentation and POS Tagging" 571-573, 2014

      6 D. Bahdanau, "Neural machine translation by jointly learning to align and translate"

      7 Sepp Hochreiter, "Long short-term memory" 9 (9): 1735-1780, 1997

      8 H. Hwang, "Korean Morphological Analysis using Sequence-to-sequence learning with Copying mechanism" 443-445, 2016

      9 C. Park, "Korean Morphological Analysis and Part-Of-Speech Tagging with LSTMCRF based on BERT" 34-36, 2019

      10 J. Gu, "Incorporating copying mechanism in sequence-to-sequence learning"

      11 A. Radford, "Improving language understanding by generative pre-training"

      12 Y. Wu, "Google's neural machine translation system : Bridging the gap between human and machine translation"

      13 M. -E. Peters, "Deep contextualized word representations"

      14 J. Devlin, "Bert : Pre-training of deep bidirectional transformers for language understanding"

      15 J. Min, "BERT for Transition-based Korean morphological analysis and POS tagging" 401-403, 2019

      16 A. Vaswani, "Attention is all you need" 5998-6008, 2017

      17 CORPUS, "21st Century Sejong Project"

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2021 평가예정 계속평가 신청대상 (등재유지)
      2016-01-01 평가 우수등재학술지 선정 (계속평가)
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-01-01 평가 학술지 통합 (등재유지) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.19 0.19 0.19
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.2 0.18 0.373 0.07
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼