음성인식기는 음향모델과 언어모델로 구성된다. 음성인식을 위한 언어모델을 구성하는데 있어서 확률적인 방법이 많이 사용되고 있지만 학습을 위한 충분한 데이터가 부족하고 그로부터 ...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T10116702
서울 : 서강대학교 대학원, 2000
2000
한국어
569 판사항(4)
서울
vi, 41p. : 삽도 ; 26cm.
참고문헌: p. 40-41
0
상세조회0
다운로드국문 초록 (Abstract)
음성인식기는 음향모델과 언어모델로 구성된다. 음성인식을 위한 언어모델을 구성하는데 있어서 확률적인 방법이 많이 사용되고 있지만 학습을 위한 충분한 데이터가 부족하고 그로부터 ...
음성인식기는 음향모델과 언어모델로 구성된다. 음성인식을 위한 언어모델을 구성하는데 있어서 확률적인 방법이 많이 사용되고 있지만 학습을 위한 충분한 데이터가 부족하고 그로부터 구성된 확률 데이터는 그 공간 복잡도에 비해 다양한 언어 문맥에 대한 신뢰할만한 모델링이 어렵다는 단점이 있다. 근래 여러 연구에서는 이러한 문제를 극복하기 위해 단어의 카테고리(category)를 결정하여 그 카테고리의 문맥으로 언어모델을 구성하는 카테고리 기반 언어모델(category based language modeling) 방법이 제안되어 언어모델의 성능향상에 기여하였다.
본 논문에서는 단어의 카테고리를 코퍼스로부터 자동으로 결정하고 각 단어를 복수의 카테고리에 속하게 함으로써 각 단어의 특성을 잘 나타내면서도 카테고리 기반 언어모델의 장점인 작은 공간 복잡도를 유지할 수 있도록 하는 자동 다중 단어 카테고리 결정 알고리듬을 제안하였다. 또한 제안한 알고리듬을 사용하여 생성한 단어 카테고리로부터 다중 단어 카테고리 기반 언어모델을 구성하고 학습 문장에 포함되지 않은 문맥이 31% 포함된 인식문장에 대한 N-Best rescoring을 통해 성능 향상을 평가하였다. 그 결과 word accuracy는 1-Best 문장에 대해서 3.0% 향상을 얻었고 기존의 단일 카테고리 기반 언어모델을 적용한 결과에 비교하여 1.3% 향상을 얻을 수 있었다.
이 결과는 다중 단어 카테고리 기반의 언어모델이 학습 문장으로부터 언어적 패턴을 추출할 수 있다는 것과 데이터 부족 현상하에서도 미관측 문맥에 대하여 신뢰도가 높은 확률을 제공할 수 있다는 것을 말한다.
다국어 초록 (Multilingual Abstract)
Language models are computational techniques that describe word sequence of natural language. Modern speech recognition systems use statistical language models that assign a probability to each word in an utterance. While statistical language models h...
Language models are computational techniques that describe word sequence of natural language. Modern speech recognition systems use statistical language models that assign a probability to each word in an utterance. While statistical language models have been easily adapted to large vocabulary continuous speech recognition systems, they suffer from training set sparseness problem because they require huge amount of training corpus. Recently category based language models are proposed to solve the sparseness problem. Category based language models designed to discover relationships between categories so that language model parameters share probability between words instead of finding patterns among individual words.
In this thesis, I propose automatic multiple word category determination algorithm. The algorithm is able to determine multiple category and membership weights for each word while it does not use part-of-speech information. N-best rescoring results shows that the algorithm improves the word correctness by 3% compared to the result using a word bigram and 1.3 % compared to the result using automatic word category determination algorithm that performs many-to-one mapping.
목차 (Table of Contents)