RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      기분석 부분어절 사전 기반의 형태소 분석 및 음절-형태소 전이 확률 기반 품사·동형이의어 태깅

      한글로보기

      https://www.riss.kr/link?id=T13374747

      • 저자
      • 발행사항

        울산 : 울산대학교 대학원, 2014

      • 학위논문사항

        학위논문(박사) -- 울산대학교 대학원 , 컴퓨터정보통신공학과 , 2014. 2

      • 발행연도

        2014

      • 작성언어

        한국어

      • 주제어
      • 발행국(도시)

        울산

      • 기타서명

        Korean morphological analysis based on pre-analyzed partial word-phrase dictionary and part-of-speech·homograph tagging based on syllable-morpheme transition probability

      • 형태사항

        87 p. : 삽화, 표 ; 30 cm

      • 일반주기명

        울산대학교 논문은 저작권에 의해 보호받습니다
        지도교수: 옥철영
        참고문헌 : p. 81-84

      • 소장기관
        • 국립중앙도서관 국립중앙도서관 우편복사 서비스
        • 울산대학교 도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필요하다. 한국어 형태소 분석기를 위한 규칙기반 방법들이 연구되었으나 교착어가 가지는 다양한 불규칙과 원형복구의 어려움 때문에 낮은 정확률을 보여 왔다. 천만 어절에 달하는 세종말뭉치가 완성된 이후로 학습기반의 형태소 분석 및 동형이의어 분별 방법들이 연구되고 있다.
      일반적으로 형태소 분석 절차는 두 단계로 나뉜다. 첫 번째 단계에서는 하나의 어절을 분석하여 형태소와 품사 그리고 동형이의어 번호를 가진 후보들을 생성한다. 두 번째 단계에서는 문맥 정보를 이용하여 하나의 적합한 후보를 선택한다.
      본 논문은 세종말뭉치에서 기분석 부분어절 사전을 구축하고 첫 단계에서 이를 활용하는 방법을 제안한다. 어절 분석 내용을 저장하여 사용하는 기분석 전체어절 사전 뿐 아니라, 어절 분석 내용의 부분을 저장하는 기분석 부분어절 사전도 사용하는 것이다. 이 방법으로 대부분의 어절을 2개 이상의 형태소로 나누어서 분석할 수 있다.
      기분석 전체어절 사전은 어절 전체와 그 분석 내용 전체를 저장하기 때문에 구축 과정이 간단하지만, 기분석 부분어절 사전은 복잡한 단계를 거쳐서 만들어진다. 우선 말뭉치에서 어절의 음절(표층형)들을 각각 그에 해당하는 원형(형태소) 음절과 연결하고, 이 연결 정보를 토대로 어절의 부분과 그에 해당하는 원형 정보를 사전에 저장한다. 이 때 형태소(또는 품사) 전이정보와 어절의 처음에 나타날 수 있는 품사정보 등 다양한 추가정보를 같이 저장한다.
      세종말뭉치로 만들어진 기분석 부분어절 사전은 대부분의 어절을 분석할 수 있다. 우선 입력된 어절을 2부분으로 나눈 뒤, 각 부분을 기분석 부분어절 사전에서 찾는다. 그리고 찾아진 각 부분의 분석 내용으로 후보를 생성한다. 이렇게 생성된 후보들은 빈도 정보와 형태소 전이빈도 등을 통해 평가 점수를 계산한다. 이 점수가 임계치 이상일 경우에는 후보로 적합하다고 판단하지만, 그 이하일 경우에는 후보에 포함시키지 않는다. 그리고 어절 안에 복합명사가 존재한다고 가정하여 어절을 3개 이상으로 나누는 방법을 적용한다. 복합명사를 포함하는 어절은 우선 조사만 따로 분리하고, 복합명사 부분을 다시 2개 이상으로 나누어서 분석한다.
      후보들이 생성된 뒤에는 적절한 하나의 후보를 선택하는 두 번째 단계로 넘어간다. 은닉 마르코프 모델은 이 단계에서 전통적으로 사용되어지는 모델로 높은 정확률이 특징이다. 본 논문에서는 동형이의어 정보를 포함하는 어절의 전이 확률을 계산하기 위해 기본적인 어절 단위 전이 모델 1가지와 어절의 부분 정보(어말 또는 어두)만을 사용하는 전이모델 2가지를 제안한다. 다양한 전이 모델을 모두 적용하기 위해 하나의 전이 확률식으로 통합하여 구성하지 않고 가장 신뢰도가 높은 모델부터 순서대로 시도하여 먼저 성공한 모델만을 적용하는 단계별 적용 방법을 제안한다. 기본적인 전이모델은 입력된 두 개의 어절 쌍이 말뭉치에서도 그대로 나타난 경우를 찾아서 적용하는 것으로 학습 사전의 용량이 매우 크고, 재현율이 극히 낮기 때문에 실용성이 없는 것으로 나타났다. 두 번째 전이모델이 세 번째 것보다 재현율은 낮지만, 재현에 성공한 경우에는 신뢰도가 더 높다. 따라서 두 번째 모델이 세 번째 모델 보다 우선적으로 시도되며 가중치가 더 높다.
      실험을 위해 세종말뭉치 약 1,100만 어절을 10문장 단위로 나눈 뒤에, 9문장은 학습(990만 어절)하고 나머지 1문장을 테스트세트(110만 어절)로 사용하였다. 기호를 포함하거나 오류가 있는 어절도 예외 없이 학습세트 또는 테스트세트에 포함시켰다. 어절 단위로 정답을 측정하였으며, 품사와 동형이의어 둘 다 맞추어야 정답으로 인정하였다. 기분석 부분어절 사전을 사용한 알고리즘으로 후보를 생성하였고 은닉 마르코프 모델(HIdden Markov Model : HMM)로 후보를 선택한 결과 정확률 96.49%가 나타났다.
      HMM은 비록 정확률이 높지만, 시간 복잡도가 어절의 후보 수 제곱에 해당하는 느린 알고리즘에 속한다. 본 논문은 이 모델을 대체할 수 있는 더 빠른 확률 모델을 제안한다. 음절-형태소 전이 모델은 인접한 어절의 음절을 조건으로 현재 어절의 후보에 대한 확률을 계산한다. HMM은 인접 어절의 분석 후보(형태소, 품사, 동형이의어 정보로 은닉 상태에 해당한다.)를 조건으로 확률을 계산하는데, 음절-형태소 전이 모델은 음절 정보(표층형. 관찰된 정보)만을 사용하기 때문에 큰 차이점을 보인다.
      음절-형태소 전이 모델 또한 앞 어절과 뒷 어절 음절의 일부만을 사용하는 확률 모델들을 사용한다. 또한 뒷 어절이 동사일 경우에는 동사의 음운변동을 고려하여 예외적으로 그 동사의 형태소 원형 음절 정보를 사용하여 전이 확률을 계산한다. 그리고 부사 어절이 나타날 경우에는 부사의 앞 어절과 뒷 어절이 서로 인접한 것으로 가정하여 전이확률을 계산하고, 이것을 기존의 확률값에 곱하여 후보 선택에 사용한다.
      HMM을 실험한 환경과 같은 환경에서 음절-형태소 전이 모델을 실험한 결과 정확률 96.42%로 0.06%의 차이를 보였으며, 후보 선택에 소요된 시간은 약 절반으로 감소하였다.
      번역하기

      어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필...

      어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필요하다. 한국어 형태소 분석기를 위한 규칙기반 방법들이 연구되었으나 교착어가 가지는 다양한 불규칙과 원형복구의 어려움 때문에 낮은 정확률을 보여 왔다. 천만 어절에 달하는 세종말뭉치가 완성된 이후로 학습기반의 형태소 분석 및 동형이의어 분별 방법들이 연구되고 있다.
      일반적으로 형태소 분석 절차는 두 단계로 나뉜다. 첫 번째 단계에서는 하나의 어절을 분석하여 형태소와 품사 그리고 동형이의어 번호를 가진 후보들을 생성한다. 두 번째 단계에서는 문맥 정보를 이용하여 하나의 적합한 후보를 선택한다.
      본 논문은 세종말뭉치에서 기분석 부분어절 사전을 구축하고 첫 단계에서 이를 활용하는 방법을 제안한다. 어절 분석 내용을 저장하여 사용하는 기분석 전체어절 사전 뿐 아니라, 어절 분석 내용의 부분을 저장하는 기분석 부분어절 사전도 사용하는 것이다. 이 방법으로 대부분의 어절을 2개 이상의 형태소로 나누어서 분석할 수 있다.
      기분석 전체어절 사전은 어절 전체와 그 분석 내용 전체를 저장하기 때문에 구축 과정이 간단하지만, 기분석 부분어절 사전은 복잡한 단계를 거쳐서 만들어진다. 우선 말뭉치에서 어절의 음절(표층형)들을 각각 그에 해당하는 원형(형태소) 음절과 연결하고, 이 연결 정보를 토대로 어절의 부분과 그에 해당하는 원형 정보를 사전에 저장한다. 이 때 형태소(또는 품사) 전이정보와 어절의 처음에 나타날 수 있는 품사정보 등 다양한 추가정보를 같이 저장한다.
      세종말뭉치로 만들어진 기분석 부분어절 사전은 대부분의 어절을 분석할 수 있다. 우선 입력된 어절을 2부분으로 나눈 뒤, 각 부분을 기분석 부분어절 사전에서 찾는다. 그리고 찾아진 각 부분의 분석 내용으로 후보를 생성한다. 이렇게 생성된 후보들은 빈도 정보와 형태소 전이빈도 등을 통해 평가 점수를 계산한다. 이 점수가 임계치 이상일 경우에는 후보로 적합하다고 판단하지만, 그 이하일 경우에는 후보에 포함시키지 않는다. 그리고 어절 안에 복합명사가 존재한다고 가정하여 어절을 3개 이상으로 나누는 방법을 적용한다. 복합명사를 포함하는 어절은 우선 조사만 따로 분리하고, 복합명사 부분을 다시 2개 이상으로 나누어서 분석한다.
      후보들이 생성된 뒤에는 적절한 하나의 후보를 선택하는 두 번째 단계로 넘어간다. 은닉 마르코프 모델은 이 단계에서 전통적으로 사용되어지는 모델로 높은 정확률이 특징이다. 본 논문에서는 동형이의어 정보를 포함하는 어절의 전이 확률을 계산하기 위해 기본적인 어절 단위 전이 모델 1가지와 어절의 부분 정보(어말 또는 어두)만을 사용하는 전이모델 2가지를 제안한다. 다양한 전이 모델을 모두 적용하기 위해 하나의 전이 확률식으로 통합하여 구성하지 않고 가장 신뢰도가 높은 모델부터 순서대로 시도하여 먼저 성공한 모델만을 적용하는 단계별 적용 방법을 제안한다. 기본적인 전이모델은 입력된 두 개의 어절 쌍이 말뭉치에서도 그대로 나타난 경우를 찾아서 적용하는 것으로 학습 사전의 용량이 매우 크고, 재현율이 극히 낮기 때문에 실용성이 없는 것으로 나타났다. 두 번째 전이모델이 세 번째 것보다 재현율은 낮지만, 재현에 성공한 경우에는 신뢰도가 더 높다. 따라서 두 번째 모델이 세 번째 모델 보다 우선적으로 시도되며 가중치가 더 높다.
      실험을 위해 세종말뭉치 약 1,100만 어절을 10문장 단위로 나눈 뒤에, 9문장은 학습(990만 어절)하고 나머지 1문장을 테스트세트(110만 어절)로 사용하였다. 기호를 포함하거나 오류가 있는 어절도 예외 없이 학습세트 또는 테스트세트에 포함시켰다. 어절 단위로 정답을 측정하였으며, 품사와 동형이의어 둘 다 맞추어야 정답으로 인정하였다. 기분석 부분어절 사전을 사용한 알고리즘으로 후보를 생성하였고 은닉 마르코프 모델(HIdden Markov Model : HMM)로 후보를 선택한 결과 정확률 96.49%가 나타났다.
      HMM은 비록 정확률이 높지만, 시간 복잡도가 어절의 후보 수 제곱에 해당하는 느린 알고리즘에 속한다. 본 논문은 이 모델을 대체할 수 있는 더 빠른 확률 모델을 제안한다. 음절-형태소 전이 모델은 인접한 어절의 음절을 조건으로 현재 어절의 후보에 대한 확률을 계산한다. HMM은 인접 어절의 분석 후보(형태소, 품사, 동형이의어 정보로 은닉 상태에 해당한다.)를 조건으로 확률을 계산하는데, 음절-형태소 전이 모델은 음절 정보(표층형. 관찰된 정보)만을 사용하기 때문에 큰 차이점을 보인다.
      음절-형태소 전이 모델 또한 앞 어절과 뒷 어절 음절의 일부만을 사용하는 확률 모델들을 사용한다. 또한 뒷 어절이 동사일 경우에는 동사의 음운변동을 고려하여 예외적으로 그 동사의 형태소 원형 음절 정보를 사용하여 전이 확률을 계산한다. 그리고 부사 어절이 나타날 경우에는 부사의 앞 어절과 뒷 어절이 서로 인접한 것으로 가정하여 전이확률을 계산하고, 이것을 기존의 확률값에 곱하여 후보 선택에 사용한다.
      HMM을 실험한 환경과 같은 환경에서 음절-형태소 전이 모델을 실험한 결과 정확률 96.42%로 0.06%의 차이를 보였으며, 후보 선택에 소요된 시간은 약 절반으로 감소하였다.

      더보기

      목차 (Table of Contents)

      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 관련 연구 3
      • 1.2.1 형태소 분석 3
      • 1.2.2 품사 태깅 7
      • 1. 서론 1
      • 1.1 연구 배경 1
      • 1.2 관련 연구 3
      • 1.2.1 형태소 분석 3
      • 1.2.2 품사 태깅 7
      • 1.2.3 동형이의어 분별 8
      • 2. 기분석 부분어절 사전 기반 형태소 분석 12
      • 2.1 기분석 부분어절 사전 구축 13
      • 2.1.1 표층형-원형의 음절 연결 13
      • 2.1.2 부분 어절 추출 14
      • 2.1.3 음운 변화된 동사 자동 생성 17
      • 2.1.4 형태소 위치 적합성 학습 18
      • 2.2 기분석 부분어절 사전을 이용한 분석 알고리즘 20
      • 2.2.1 기분석 부분어절 사전을 이용한 기본 분석 20
      • 2.2.2 분석 후보 평가 함수 22
      • 2.2.3 복합명사 분석 24
      • 2.2.4 복합명사 분석 평가 함수 25
      • 2.2.5 분석 후보 필터링 26
      • 2.2.6 형태소 분석 알고리즘 27
      • 2.3 실험 및 성능 평가 30
      • 2.3.1 실험 환경 30
      • 2.3.2 실험 결과 30
      • 2.3.3 오류 유형 분석 31
      • 2.4 사용자 사전 32
      • 3. HMM과 단계별 전이모델을 이용한 품사·동형이의어 태깅 34
      • 3.1 착안점 34
      • 3.2 단계별 전이모델 35
      • 3.3 분석 후보 평가 점수 적용 40
      • 3.4 전이 모델별 가중치 41
      • 3.5 첫 어절 빈도와 최소 전이점수 43
      • 3.6 형태소 분석기 부착 및 규칙 기반 후처리 44
      • 3.7 실험 및 성능 평가 46
      • 3.7.1 전이모델별 성능 46
      • 3.7.2 모델별 가중치 결정 47
      • 3.7.3 기존 연구와의 비교 실험 49
      • 3.7.4 단계별 전이모델의 오류 유형 분석 50
      • 4. 음절-형태소 전이 확률 기반 품사·동형이의어 태깅 모델 52
      • 4.1 착안점 52
      • 4.2 음절-형태소 전이 확률의 단계별 적용 54
      • 4.2.1 음절-형태소 전이 모델 기본 형태 55
      • 4.2.2 어절-어두 전이 모델 57
      • 4.2.3 어말-어두 전이 모델 60
      • 4.3 동사 음운변동 예외처리 61
      • 4.4 어두-어두 전이 모델 64
      • 4.5 어절 간 전이에서 부사 예외 처리 66
      • 4.6 최소 전이 확률 68
      • 4.7 품사·동형이의어 태깅 알고리즘 69
      • 4.8 실험 및 성능 평가 73
      • 4.8.1 상수 결정 73
      • 4.8.2 학습 말뭉치 10분할 교차 검증 실험 75
      • 4.8.3 HMM과의 성능 비교 및 동형이의어 정확률 76
      • 4.8.4 오류 유형 분석 78
      • 5. 결론 79
      • 참고 문헌 81
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼