어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T13374747
울산 : 울산대학교 대학원, 2014
학위논문(박사) -- 울산대학교 대학원 , 컴퓨터정보통신공학과 , 2014. 2
2014
한국어
울산
Korean morphological analysis based on pre-analyzed partial word-phrase dictionary and part-of-speech·homograph tagging based on syllable-morpheme transition probability
87 p. : 삽화, 표 ; 30 cm
울산대학교 논문은 저작권에 의해 보호받습니다
지도교수: 옥철영
참고문헌 : p. 81-84
0
상세조회0
다운로드국문 초록 (Abstract)
어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필...
어휘수준의 의미처리시스템을 구축하기 위해서는 형태소를 분석하고 품사와 동형이의어를 분별하는 분석기가 필요하다. 동형이의어분별은 구문분석시에 여러 중의성을 해소하기 위해 필요하다. 한국어 형태소 분석기를 위한 규칙기반 방법들이 연구되었으나 교착어가 가지는 다양한 불규칙과 원형복구의 어려움 때문에 낮은 정확률을 보여 왔다. 천만 어절에 달하는 세종말뭉치가 완성된 이후로 학습기반의 형태소 분석 및 동형이의어 분별 방법들이 연구되고 있다.
일반적으로 형태소 분석 절차는 두 단계로 나뉜다. 첫 번째 단계에서는 하나의 어절을 분석하여 형태소와 품사 그리고 동형이의어 번호를 가진 후보들을 생성한다. 두 번째 단계에서는 문맥 정보를 이용하여 하나의 적합한 후보를 선택한다.
본 논문은 세종말뭉치에서 기분석 부분어절 사전을 구축하고 첫 단계에서 이를 활용하는 방법을 제안한다. 어절 분석 내용을 저장하여 사용하는 기분석 전체어절 사전 뿐 아니라, 어절 분석 내용의 부분을 저장하는 기분석 부분어절 사전도 사용하는 것이다. 이 방법으로 대부분의 어절을 2개 이상의 형태소로 나누어서 분석할 수 있다.
기분석 전체어절 사전은 어절 전체와 그 분석 내용 전체를 저장하기 때문에 구축 과정이 간단하지만, 기분석 부분어절 사전은 복잡한 단계를 거쳐서 만들어진다. 우선 말뭉치에서 어절의 음절(표층형)들을 각각 그에 해당하는 원형(형태소) 음절과 연결하고, 이 연결 정보를 토대로 어절의 부분과 그에 해당하는 원형 정보를 사전에 저장한다. 이 때 형태소(또는 품사) 전이정보와 어절의 처음에 나타날 수 있는 품사정보 등 다양한 추가정보를 같이 저장한다.
세종말뭉치로 만들어진 기분석 부분어절 사전은 대부분의 어절을 분석할 수 있다. 우선 입력된 어절을 2부분으로 나눈 뒤, 각 부분을 기분석 부분어절 사전에서 찾는다. 그리고 찾아진 각 부분의 분석 내용으로 후보를 생성한다. 이렇게 생성된 후보들은 빈도 정보와 형태소 전이빈도 등을 통해 평가 점수를 계산한다. 이 점수가 임계치 이상일 경우에는 후보로 적합하다고 판단하지만, 그 이하일 경우에는 후보에 포함시키지 않는다. 그리고 어절 안에 복합명사가 존재한다고 가정하여 어절을 3개 이상으로 나누는 방법을 적용한다. 복합명사를 포함하는 어절은 우선 조사만 따로 분리하고, 복합명사 부분을 다시 2개 이상으로 나누어서 분석한다.
후보들이 생성된 뒤에는 적절한 하나의 후보를 선택하는 두 번째 단계로 넘어간다. 은닉 마르코프 모델은 이 단계에서 전통적으로 사용되어지는 모델로 높은 정확률이 특징이다. 본 논문에서는 동형이의어 정보를 포함하는 어절의 전이 확률을 계산하기 위해 기본적인 어절 단위 전이 모델 1가지와 어절의 부분 정보(어말 또는 어두)만을 사용하는 전이모델 2가지를 제안한다. 다양한 전이 모델을 모두 적용하기 위해 하나의 전이 확률식으로 통합하여 구성하지 않고 가장 신뢰도가 높은 모델부터 순서대로 시도하여 먼저 성공한 모델만을 적용하는 단계별 적용 방법을 제안한다. 기본적인 전이모델은 입력된 두 개의 어절 쌍이 말뭉치에서도 그대로 나타난 경우를 찾아서 적용하는 것으로 학습 사전의 용량이 매우 크고, 재현율이 극히 낮기 때문에 실용성이 없는 것으로 나타났다. 두 번째 전이모델이 세 번째 것보다 재현율은 낮지만, 재현에 성공한 경우에는 신뢰도가 더 높다. 따라서 두 번째 모델이 세 번째 모델 보다 우선적으로 시도되며 가중치가 더 높다.
실험을 위해 세종말뭉치 약 1,100만 어절을 10문장 단위로 나눈 뒤에, 9문장은 학습(990만 어절)하고 나머지 1문장을 테스트세트(110만 어절)로 사용하였다. 기호를 포함하거나 오류가 있는 어절도 예외 없이 학습세트 또는 테스트세트에 포함시켰다. 어절 단위로 정답을 측정하였으며, 품사와 동형이의어 둘 다 맞추어야 정답으로 인정하였다. 기분석 부분어절 사전을 사용한 알고리즘으로 후보를 생성하였고 은닉 마르코프 모델(HIdden Markov Model : HMM)로 후보를 선택한 결과 정확률 96.49%가 나타났다.
HMM은 비록 정확률이 높지만, 시간 복잡도가 어절의 후보 수 제곱에 해당하는 느린 알고리즘에 속한다. 본 논문은 이 모델을 대체할 수 있는 더 빠른 확률 모델을 제안한다. 음절-형태소 전이 모델은 인접한 어절의 음절을 조건으로 현재 어절의 후보에 대한 확률을 계산한다. HMM은 인접 어절의 분석 후보(형태소, 품사, 동형이의어 정보로 은닉 상태에 해당한다.)를 조건으로 확률을 계산하는데, 음절-형태소 전이 모델은 음절 정보(표층형. 관찰된 정보)만을 사용하기 때문에 큰 차이점을 보인다.
음절-형태소 전이 모델 또한 앞 어절과 뒷 어절 음절의 일부만을 사용하는 확률 모델들을 사용한다. 또한 뒷 어절이 동사일 경우에는 동사의 음운변동을 고려하여 예외적으로 그 동사의 형태소 원형 음절 정보를 사용하여 전이 확률을 계산한다. 그리고 부사 어절이 나타날 경우에는 부사의 앞 어절과 뒷 어절이 서로 인접한 것으로 가정하여 전이확률을 계산하고, 이것을 기존의 확률값에 곱하여 후보 선택에 사용한다.
HMM을 실험한 환경과 같은 환경에서 음절-형태소 전이 모델을 실험한 결과 정확률 96.42%로 0.06%의 차이를 보였으며, 후보 선택에 소요된 시간은 약 절반으로 감소하였다.
목차 (Table of Contents)