RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      북한 조선어 형태소 분석 사전 구축에 관한 연구 = A Study on Building a Morphological Analysis Dictionary for North Korean Language

      한글로보기

      https://www.riss.kr/link?id=A109432888

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다.
      MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 󰡔로동신문󰡕 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서 약 92.11%의 성능을 보였다.
      ‘학습 데이터’를 다양하게 구성하여 성능 평가를 시도한 결과, 한국어 데이터에 󰡔로동신문󰡕과 북한의 유학생용 조선어 교재 데이터를 추가한 경우, 그리고 MeCab의 기능을 사용하여 한국어 데이터로 구축한 분석 사전을 조선어 데이터로 ‘재학습’한 경우, 성능을 향상시킬 수 있었다.
      본 연구에서 구축한 분석 사전은 프로그래밍 언어를 통해서 사용할 수 있으며 또 분석 결과를 기존의 분석 도구에서 활용할 수도 있다는 점에서 매우 유용하다.
      번역하기

      본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다. MeCab...

      본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다.
      MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 󰡔로동신문󰡕 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서 약 92.11%의 성능을 보였다.
      ‘학습 데이터’를 다양하게 구성하여 성능 평가를 시도한 결과, 한국어 데이터에 󰡔로동신문󰡕과 북한의 유학생용 조선어 교재 데이터를 추가한 경우, 그리고 MeCab의 기능을 사용하여 한국어 데이터로 구축한 분석 사전을 조선어 데이터로 ‘재학습’한 경우, 성능을 향상시킬 수 있었다.
      본 연구에서 구축한 분석 사전은 프로그래밍 언어를 통해서 사용할 수 있으며 또 분석 결과를 기존의 분석 도구에서 활용할 수도 있다는 점에서 매우 유용하다.

      더보기

      다국어 초록 (Multilingual Abstract)

      The purpose of this study is to build a morphological dictionary for automatic morphological analysis of North Korean sentences. The open-source software “MeCab” was used as the analysis engine.
      When building a dictionary with MeCab, a 'seed dictionary' with registered dictionary entries and 'training data' for machine learning are required. The 'seed dictionary' is composed of about 210,000 entries by adding North Korean entries to an existing South Korean morphological analysis dictionary. As 'training data', we first used the data used to build the South Korean morphological analysis dictionary, and as a result of performance evaluation using articles from , we achieved about 97.73% for morpheme boundary judgment and 92.11% for homophone judgment.
      When we tried to evaluate the performance by varying the 'training data', we were able to improve the performance when we added data from and Korean textbooks for international students in North Korea to the South Korean data, and when we 'retrained' the analytic dictionary built with South Korean data with North Korean data using MeCab's features.
      The morphological dictionary built in this study is very useful in that it can be used through programming languages and the results can be utilized in existing analytical tools.
      번역하기

      The purpose of this study is to build a morphological dictionary for automatic morphological analysis of North Korean sentences. The open-source software “MeCab” was used as the analysis engine. When building a dictionary with MeCab, a 'seed dicti...

      The purpose of this study is to build a morphological dictionary for automatic morphological analysis of North Korean sentences. The open-source software “MeCab” was used as the analysis engine.
      When building a dictionary with MeCab, a 'seed dictionary' with registered dictionary entries and 'training data' for machine learning are required. The 'seed dictionary' is composed of about 210,000 entries by adding North Korean entries to an existing South Korean morphological analysis dictionary. As 'training data', we first used the data used to build the South Korean morphological analysis dictionary, and as a result of performance evaluation using articles from , we achieved about 97.73% for morpheme boundary judgment and 92.11% for homophone judgment.
      When we tried to evaluate the performance by varying the 'training data', we were able to improve the performance when we added data from and Korean textbooks for international students in North Korea to the South Korean data, and when we 'retrained' the analytic dictionary built with South Korean data with North Korean data using MeCab's features.
      The morphological dictionary built in this study is very useful in that it can be used through programming languages and the results can be utilized in existing analytical tools.

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼