RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 핵심어 추출 및 연속 음성 인식 지원을 위한 다목적 처리 프로세서 설계에 대한 연구

        김동헌 전남대학교 대학원 2013 국내박사

        RANK : 248703

        음성인식 기술은 사람과 기계간의 인터페이스를 편리하고 자연스럽게 만들 수 있기 때문에 음성인식 기술의 연구 개발이 국내외에서 꾸준히 진행 되어 왔으며, 그 결과 단순한 단어 인식을 넘어 자연스럽게 발성한 음성도 인식할 수 있는 수준으로 발전해 왔다. 특히 근래 애플이 발표한 시리는 아이폰에 탑재되는 자연어 음성인식 처리 소프트웨어로 많은 이들의 관심을 지속적으로 받고 있다. 이러한 연속 음성 인식 소프트웨어들은 대부분 확률 통계 이론에 기반을 둔 HMM 기법을 활용해 개발된 고가의 수입 소프트웨어 들이며 그 구현 비용이 너무 비싸 음성인식의 높은 효용성에도 불구하고 많이 보급되지 못 하고 있는 실정이다. 실제 국내에서 음성 인식을 도입한 통신사 및 몇몇 카드사의 사례들도 미국의 Nuance 엔진을 이용 구현 되었다. 일부 국산 음성 인식 소프트웨어를 활용해 구현한 사례들도 있으나 그 대부분은 단어 위주의 인식 서비스로 구성 되어 있으며, 이 또한 잡음처리 및 음성 에너지 조절 기능들이 부족해 만족할 만한 인식률을 보이지 못하고 있으며 또한 요구된 발성 규칙을 따르지 못한 음성 질의들은 아예 처리하지 못하고 있는 실정이다. 본 논문에서는 이러한 현실적 어려움을 개선할 수 있는 방안으로 음성인식 엔진에 독립적이며, 또한 단순히 잡음 제거 기능만 수행하는 전처리 엔진이 아니라 규칙에 따르지 않은 음성 질의도 처리 할 수 있는 핵심어 추출 기능, 더 나아가 그 핵심어를 수식하는 전 술부 및 그 해당 음성 질의로부터 수행하기를 원하는 후 술부 까지도 추출할 수 있는 다목적 전처리 프로세서 설계 방법을 제안 하고자 한다. 더불어 스마트 폰 등에서 사용 가능한 음성 dictation 기능으로부터 발성자의 음성 질의 의도도 파악할 수 있는 후 처리 설계 방법도 같이 제안 하고자 한다. 이러한 후 처리기는 음소 별로 독립적으로 부여된 고유 값을 이용 인식 단어들 전체의 동질성 값을 계산하는 기능을 갖추어 dictation 결과가 잘못되었을 시 이를 보정할 수 있는 기능을 갖추고 있다. 이렇게 설계된 전 처리기를 기존 음성 인식 솔루션에 병행 사용하여 그 인식 기능을 제고할 수 있음을 G사의 직원 자동 연결 시스템과의 연동에서 확인 할 수 있었으며, 국내 통신 회사의 실제 고객들 음성 질의도 처리 할 수 있음을 확인 하였다. 후 처리기 또한 국내 카드사의 스마트 폰에 음성 처리 능력을 지원하는 데 사용되어 그 상업적 유용성을 입증하였다. 본 논문을 통해 제안된 처리기는 소프트웨어적으로 구현되었고 음성 인식 소프트웨어에 독립적으로 설계되었기에 인식 단어 또는 문장의 증가 시 그 처리 능력이 떨어 질 수 있으나 더욱 빨라진 하드웨어 처리 능력으로 이를 극복할 수 있을 것으로 생각되며 앞으로 이와 같은 처리기 관련 연구를 촉발하는 데 기여할 수 있기를 기대한다.

      • 항공기 잡음 환경에 강한 음성인식 연구

        김선일 高麗大學校 經營情報大學院 2004 국내석사

        RANK : 248703

        음성은 인간이 사용하고 있는 통신 매체 중 가장 자연스러운 형태이며 음성인식의 큰 문제점중의 하나는 다양한 잡음 환경 하에서 성능저하이다. 최근 잡음이 심한 환경에서 음성인식을 신뢰성 있게 하기 위한 방법이 집중적으로 연구되고 있다. 본 논문에서는 군사용 항공기 잡음 환경에서 음성인식률 향상을 도모하고자 한다. 스펙트럼차감법과 백터양자화를 결합한 방법을 사용하여 여러 가지 잡음 처리방법을 연구하여 인식 시스템의 성능을 개선하였고, 음성데이터를 분석하여 음성의 특징을 추출하는 과정으로 MFCC 알고리즘을 통하여 멜 켑스트럼계수를 출력한다. 코드북 생성은 인식할 음에 대한 코드 북을 생성하는 과정으로 LBG 알고리즘을 이용한다. 사용된 음성 데이터는 남성 5명의 화자로부터 발성된 20개의 명령어를 사용하였고 실험결과 제안된 방법에 의 한 인식기는 항공기 잡음 환경에서도 84.1% 이상의 인식률을 나타내었다. Speech is the most natural form among all communications used in human society and one of major problems in speech recognition is that its performance gets down in various noisy environments. Recent researches have been focused on method for reliable speech recognitions in noisy environments. This paper is concerned for improving the performance of speech recognition under the Aircraft noisy speech in the army. A method combining Spectral Subtraction method with Vector Quantization is considered as a noise processing and the performance of the speech recognition system can be improved using other noise processing technique, and the speech analysis process analyzes the speech data and extracts the speech features of the mel-cepstrum coefficients of MFCC. The codebook generation process generates the code words from the training data each speech sound using the modified LBG algorithm. The used speech data is using 20 speech command data extracted form 5 of male speaker, and the result show that recognizers by the proposed method provides the recognition performance of 84.1% even the Aircraft noise Environments.

      • 모바일 환경에 적합한 음성인식에 관한 연구

        안종영 동아대학교 대학원 2011 국내박사

        RANK : 248703

        최근 음성인식기술은 상용화 가능한 수준까지 도달했으며, 이를 다양한 제품군에 대하여 기술적용이 시도되고 있다. 그러나 아직도 실제 환경에서는 같은 환경이라 할지라도 그 인식률은 많은 차를 나타낸다. 특히, 음성인식에서 가장 큰 변수 요인이 바로 주변 잡음이라 할 수 있다. 그 예로 모바일을 이용한 음성인식 즉, 핸드폰 또는 PDA나 차량이동시의 음성인식에 있어서 주변 환경 잡음에 의한 영향으로 음성 인식률이 감소하게 된다. 따라서 음성인식시장을 활성화하는데 가장 큰 문제점으로는 잡음이라고 할 수 있다. 이러한 잡음을 제거하기 위하여 현재 잡음제거를 위한 기술개발이 활발하게 이루어지고 있다. 현재 음성인식에서의 잡음처리 기술은 크게 음성향상(speech enhancement), 특징보상(feature compensation), 모델적응(model adaptation)과 같이 세 가지로 구분된다. 음성향상에 있어서의 스펙트럼 향상 기법은 음성이 존재하지 않는 구간에서 잡음의 스펙트럼을 추정한 후, 이를 잡음이 부가된 입력신호의 스펙트럼으로부터 차감하는 방식으로, 가장 널리 쓰이는 방법이다. 현재 거의 모든 음성인식 시스템에서는 음성을 위한 특징으로 Mel-cepstrum을 채택하고 있다. 본 논문에서는 음성향상기법에서 상기 기법과는 달리 잡음환경에서의 발성되어지는 음성에 대하여 전체적인 음량을 감쇄시켜 음성부분만 복원 시켜서 음량레벨을 변별 가능한 수준으로 조정하여 영향을 미치는 주변노이즈를 제거하는 방법인 음성스케일링을 적용하였다. 그리고 이를 DTW(Dynamic Time Warping), HMM(Hidden Markov Model) 그리고, PMLP(Prediction Multi-layer Perceptron)에 접목하여 음성인식 시 주변노이즈를 고려한 패턴을 분류하여 인식률을 향상 시키는 방법인 NC(Noise Cancel)DTW와 인식모델을 잡음상황에 맞도록 적응 시키는 MA(Model Adaptation)HMM 또한, 예측신경망을 적용한 AP(Adaptive Predictive)MLP를 제안하고자 한다. 기존의 모바일 환경에서의 소음정도는 약 60 - 80 dB 정도의 소음을 가지는데 이 정도의 소음레벨에서는 인식률이 현저히 떨어진다. 주변소음은 화자의 음성에 비해 약 3배정도 레벨이 적음을 감안할 때 음성스케일을 약 3배 정도 줄인다면 음성스케일도 줄어들지만 음성은 변별력이 가능한 진폭을 갖게 되고 주변노이즈는 현저히 줄어들게 된다. 스케일링된 음성데이터를 특징보상 및 특징추출을 하여 DTW, HMM 그리고, PMLP을 이용하여 인식을 수행할 수 있다. 실험에서는 20개의 고립단어에 대하여 잡음환경에서 제안한 음성스케이링을 적용한 NCDTW의 패턴매칭에 대한 인식률 그리고, MAHMM에서의 인식성능 그리고 APMLP의 인식성능을 비교·검토하였다. 잡음환경에서의 실험결과 NCDTW의 경우 기존의 DTW에 비해 여러 가지 실험 방법에서 전체적으로 약 10%이상 향상된 90%의 우수한 결과를 보였고 MAHMM의 경우 기존 HMM방법에 비해 역시 전체적으로 약 10%이상 향상된 92%의 인식 결과를 보였으며 그리고, 화자독립으로 실험한 APMLP 또한 기존의 PMLP에 비해 11%향상된 결과를 얻을 수 있었다. 본 논문에서 제안한 NCDTW, MAHMM, APMLP는 잡음환경 하에서 유효한 방법의 하나로 사료되며 향후 모바일 환경에서의 인식시스템으로 사용될 수 있을 것으로 기대된다.

      • 음성인식을 위한 어휘모델 생성에 관한 연구

        김준기 호서대학교 대학원 2002 국내석사

        RANK : 248703

        최근 발전하고 있는 음성인식의 우리말에 대한 적용문제는 음성기술과 컴퓨터 계산능력의 처리가 커다란 문제로 떠오르고 있다. 또한 우리말은 단어를 공백만으로는 구분할 수 없기 때문에 대용량 어휘를 갖는 연속음성을 인식하기 위한 언어모델을 만들기가 매우 어렵다. 따라서 본 논문은 우리말 음성인식 시스템의 수행능력의 개선과 처리능력의 향상을 위한 어휘모델을 생성하여, 다양한 언어처리를 필요로 하는 실생활에 적용하여 우리말을 활용하는 화자들에게 효과적인 음성인식 방법을 제시하고자 하는데 목적과 성과가 있다. 본 논문에서는 우선 기본언어 모델을 만들기 위해 일반적인 단어가 들어있는 신문기사와 KBS 9시 뉴스의 일부분을 포함한 8,555 개의 서로 다른 단어를 가진 1,348 문장을 수집하였다. 우리말 음성모델을 만들기 위한 학습시간은 약 20시간 정도였고 학습에 사용한 컴퓨터는 여러 종류로 네트워크를 이용해 처리하였다. 우리말 음성모델과 영어음성모델을 별도로 생성하여 실험을 하였으며, 복잡도에 따른 우리말과 영어의 음성인식 결과에서 우리말과 영어의 복잡도가 커짐에 따라 종합적인 인식률의 감소패턴은 유사한 결과가 나왔고 우리말 발음사전에서는 한국어 단어는 영어단어보다 발음이 더 길게 나타났다. The application of speech recognition which has been developed recently is the big issue these days. but we also have big speech and the computer problem to applicate the korean language cognition and it is so hard to make the language model for cognition of the continued speech which has big dosage vocabularies, because korean language can't be divided by only spaces. so the aim and the product for the people who use korean language. First, we collect 1,348 sentences which has different 8,555 words one another including some part of KBS 9 o'clock News and Newspaper items to make basic language model. It took about 20 hours to study for making korean language model and we used a lot of computers to get many kinds of Network and also we put to the test with making another korean language model and English language model and korean words were sounded longer than English words on the korean language dictionary and as the complexity of two languages cognition comes up, They showed similar result of decrease pattern.

      • 神經回路網을 利用한 數字音聲의 認識에 關한 硏究

        장호성 檀國大學校 1991 국내박사

        RANK : 248703

        음성 인식의 단계는 음향 처리, 특징 추출 및 패턴 매칭으로 구성된다. 음성인식 장치를 구현할 때, 음향 처리는 일반적으로 음성의 물리적 성질과 밀접한 관계가 있으므로 발성 모델의 해석에 따라 아날로그적으로 실현한다. 그리고, 특징 추출 및 패턴 매칭은 정보량이 방대하고 연산 처리가 빈번하므로 디지틀 신호처리 기법을 도입한다. 그러나 전통적인 인식 알고리즘은 논리와 기호 처리를 중심으로 하는 순차형의 처리 구조이다. 따라서, 패턴 인식 등과 같은 추상적 과제의 해결에는 기억 용량이나 처리 속도 등에서 근본적인 문제점을 가지고 있다. 특히 알고리즘적인 측면에서 보면, 인간의 인식 메카니즘에 대한 문제를 해결하지 못함으로써 인식 문제에 더욱 한계를 갖게 한다. 본 논문에서는 이와 같은 관점에서 병렬 분산 처리 구조를 갖는 각종 신경회로망을 해석하였으며, 인식률과 성능의 향상을 위한 최적 특징 파라미터의 선택 및 인식 알고리즘에 대한 연구하였다. 이를 위하여 실험에서는 음성의 물리적 특성을 반영하는 음향 처리용 하드웨어를 설계하였고, 패턴의 인식과 분류를 위한 신경 회로망을 소프트웨어에 의해 각각 구축하였다. 신경 회로망의 과제는 한국어 숫자음 10개를 대상으로 하였으며, 성인 6인으로부터 발성한 60개를 수집하여 데이터 베이스화 하였다. 이들 음성 정보는 신호처리 기법에 의해 특징 백터를 추출 한 후 신경 회로망의 입력 패턴으로서 직접 주어지게 된다. 음향 처리는 압신기(compander)에 의해 진폭비 2:1로 음성 레벨의 압축을 행하며, 표본화 주파수를 10KHz로 설정한 12비트 A/D 변환기에 의해 숫자음당 2048 데이터 포인트를 수집하였다. 수집된 데이터는 신경회로망에 적합한 특징 벡터를 찾기 위하여 파형 및 주파수 차원에서의 각종 신호 처리 기법을 적용하였다. 결과는 음성 파형의 전력 스펙트럼포락으로부터 구한 LPC 계수가 특징 구분과 정보 압축면에서 효과적이었으며, 구형창을 갖는 11차의 FFT 분석과 해밍창을 갖는 20차의 LPC 분석으로 설정하였을때 각각 126개의 특징 파라미터가 추출되었다. 한편, 신경 회로망은 패턴 인식 문제에 관련되는 성능을 평가하기 위하여 학습 알고리즘을 교사있는 경우와 교사없는 경우로 나누어 실험하였다. 교사있는 학습은 3층 구조를 갖는 퍼셉트론 회로망에 일반화 델타 규칙에 의한 역전파 알고리즘을 적용하였으며, 화자 종속과 화자 독립에 대한 인식 실험이 각각 이루어 졌다. 또한 교사없는 학습은 자율학습 능력을 갖는 Kohonen 회로망이며, 유크리트 거리 척도에 의해 집단구조를 발견하는 방법으로 패턴 분류 실험을 행하였다. 인식 실험에서는 시스템 오차를 적게하면 학습 시간이 많이 소요되나 인식률의 향상에는 별로 효과가 없었다. 그러나, 은닉층의 노드수를 증가시키면, 훈련회수가 감소되며 인식률도 다소 증가됨을 확인할 수 있었다. 따라서 최적 학습시에는 교사있는 학습에서 화자 종속일때 100%의 등급 분류를 실현할 수 있었다. 이와 같은 결과는 종래의 신호 처리 기법에 의한 방법과 거의 동일한 성능을 갖고 있어 음성 인식 분야에 신경 회로망의 적용 가능성을 확인할 수 있었다. A phase of speech recognition consists of sound processing. feature extract and pattern matching. For the implement of speech recognition system, the linear independent equivalent circuit model or concept has contributed significantly to establishing acoustical theories and quantitative descriptions. In this study, we designed speech processing system based on speech production model and obtained LPC parameters using conventional digital signal processing techniques. In addition, a number of experiments have been conducted to assess the performance of neural networks related on pattern recognition problems. The problems. The problems chosen were recognition of the spoken Korean numerals. Neural networks present a computational paradigm for constructing pattern classification and learning algorithms. In the processing of pattern recognition, inputs are corresponding to features and outputs are corresponding to pattern classes. In the experiments, two type of neural networks are compared by Generalized Delta Rule procedure for supervised learning or unspervised learning which is discovering the cluster structure. Supervised learning algorithm learns weights and thresholds with the use of training set patterns and also uses to obtain output values for new patterns, or for the classification purposed of for the estimation of values of associated attributes. Unsupervised learning algorithm uses the Euclidean distance metric for determining distances between patterns and cluster centers. In the supervised running, we gained 62.6% of accuracy for untrained data and 100% for trained one. This shows that neural networks and conventional nearest neighbor classifiers perform at near the same level accuracy. The number of hidden units was varied to determine the effect on recognition accuracy and learning time. Neural network application area is perhaps more a research and development area, than it is an applications area. The need for it is so great, however, that we suspect research results will be applied even while immature. This research area is the matter of combining expert systems and neural nets, or, equivalently, of combining symbolic processing with numeric feature-valued pattern information processing.

      • 무제한 어휘 한국어 음성 인식을 위한 효율적 음절 모델링

        金峰完 원광대학교 대학원 2001 국내박사

        RANK : 248703

        음성 인식기의 성능에 있어서 인식 단위는 매우 큰 영향을 미치기 때문에 음성 인식 시스템을 개발할 때 적절한 음성 인식 단위를 선정하는 것은 매우 중요한 일 중의 하나이다. 최근 대화체 연속 음성 인식 시스템의 경우 대화체 음성에서 음소가 탈락되거나 심각하게 약화되는 경우가 많이 발생함으로써 발음 사전에 표기된 발음 형태와 실제 발성간의 불일치로 인한 인식 시스템의 성능 저하로 인해 음절과 같은 음소 보다 긴 시간 단위를 기반으로 한 음성 인식에 대한 연구가 이루어지고 있다. 그러나 음절의 경우 학습성에 있어서 음소에 비해 매우 불리한 조건에 있으므로 음절의 학습성을 향상시키기 위한 방안이 필요하며, 학습 데이터에 출현하지 않은 음절이 인식 대상 어휘에 나타날 수 있고, 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 따라서 본 논문에서는 학습 데이터에 출현하지 않은 음절의 생성과 음절의 학습성을 향상시키기 위한 방법으로, 충분히 학습된 음소의 복사 및 결합에 의한 음절의 생성을 제안하였다. 또한 생성된 음절이 음절을 구성하고 있는 음소의 수에 비례하여 상태의 수가 증가하는 문제를 해결하기 위해 상태의 분할 및 병합에 의해 생성된 음절 모델의 상태의 수를 조절할 수 있는 방법을 제안하였다. 인식 실험 결과 음소를 복사하고 결합하여 음절 모델을 생성하였을 경우 적은 학습량으로도 아무런 사전 정보 없이 더 많은 학습 과정을 거친 모델과 비교하여 에러감소율 42.68%를 보이고 있어 학습성 향상에 제안된 방법이 유효함을 알 수 있었다. 또한 제안된 상태의 분할 및 병합을 통한 상태수의 조절 방법을 이용한 인식 실험 결과 아무런 사전 정보 없이 더 많은 학습 과정을 거친 모델과 비교하여 에러감소율이 폄균 47.77%를 보임으로써 제안된 방법이 유효함을 알 수 있었다. 또한 본 논문에서는 음절 경계에서의 문맥 종속 모델링을 위해 음소 문맥 종속 음절 모델링을 제안하였다. 제안된 음소 문맥 종속 음절 모델링은 문맥의 요소로 앞과 뒤의 음절을 모두 사용하는 것이 아니라 음절에 가장 가까운 음소만을 문맥의 요소로 사용한다. 제안된 음소 문맥 종속 음절 모델링을 단어 인식 실험에 적용한 결과 triphone에 비해, 음소 문맥 종속 .RC bi-syllable의 경우 더 적은 상태의 수에도 불구하고 16.7%의 에러감소율을 볼 수 있었다. 음절 인식기에 적용하였을 경우 문맥 비종속 음절 시스템에 비해 음소 문맥 종속 RC bi-syllable 시스템이 기본단위오류율(UER)에 있어서 26.6%, 단어오류율(WBR)에 있어서 45.9%의 성능 향상을 보이고 있어 제안된 문맥 종속 모델링이 음절 인식에 유효함을 알 수 있었다. As recognition unit makes a great influence on the performance of speech recognition system, it is very important to select the appropriate unit of recognition for the system when a speech recognition system is developed. In applications such as dialogue speech recognition, the performance of phone-based approaches has stagnated over the past few years because there are many cases of deleted or often extremely reduced phones in the dialogue speech. Therefore, there is performance degradation because there are great discrepancies between dictionary pronunciation and actual pronunciation. Recently, to cope with thus pronunciation variability, attempts to use a larger acoustic context such as syllable have been made. However, if we use the syllable as the recognition unit, it is inferior to phone in trainability. Then we would need a method to improve the trainability of the syllable unit. It also has weakness that syllables that do not exist in training data can appear as recognition vocabulary is increased. And it is also difficult to do the context dependent modeling across the boundary of syllables because of an explosive increase in number of models. Therefore, in this study as a method to create new syllables and enhance the trainability of the syllables we propose the creation of syllables by copying and combining the phone units, which have been sufficiently trained. To solve the problem that there will be an increase in the number of states in proportion to the number of the phones that compose the syllable, we propose a method that can adjust the number of states of the created syllable model through split and merge of the states. When a system using syllables that are created just by copying and combining phone units with little training and a system using flat-started syllables with more training are compared in a recognition experiment, it shows 42.68% error reduction rate in the former system. Thus we can be sure that it is an effective way to enhance the trainability of syllable units. Additionally, in the experiments of proposed method to adjust the number of slues through split and merge, the average error reduction rate was 47.77%. Therefore we can be sure that it is quite an effective method. Moreover, in this study we propose a phone dependent syllable modeling as context dependent modeling across the boundary of the syllables. The proposed phone dependent syllable modeling does not use syllables before and after the target syllable as the components of the context but it uses the phones that are nearest to the target syllable as the components of the context. In a word recognition experiment the phone dependent RC bi-syllable-based system shows errors 16.7% less than the triphone-based system. In a syllable recognition experiment the phone dependent RC bi-syllable-based system shows 26.6% performance enhancement in unit error rate and 45.9% in word error rate, compared with the context independent syllable-based system. Therefore we can be sure that the proposed context dependent syllable modeling is more effective in syllable recognition.

      • 입술영상접기와 프레임간 필터링을 이용한 립리딩 성능개선

        신도성 전남대학교 2004 국내박사

        RANK : 248703

        립리딩은 입술 변화를 입력정보로 사용하여 음성 시스템과는 별도로 입술 영상만을 입력 정보로 하여 음성인식을 할 수 있는 바이모달의 한 분야이다. 이 기술은 음성인식 분야 중 잡음 환경에서 현저하게 떨어지는 인식률을 높이기 위한 보상 방법으로 기존 음성인식 시스템에 화자의 입술을 포함한 영상 정보를 이용하려는 목적으로 연구되었다. 본 논문에서는 이미지기반 방식과 HMM 인식방법을 기반으로 하여 기본 립리딩 시스템(Baseline lipreading system)를 구현하고 성능 실험을 하였다. 이 립리딩 시스템은 이미지 영상 기반 방식을 적용하여 구현하였으며 62.4%의 인식성능을 보여 주었다. 현재 수행되는 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적환경에서의 견인성에 대해서는 연구된 바가 없어 본 연구에서는 기본 립리딩 시스템을 기반으로 하여, 환경적인 변화에 대한 립리딩 성능의 안정성과 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전, 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션된 데이터와 동적변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한 가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간 흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다. 본 연구에서는 조명 변화에 강인한 기본 립리딩 시스템의 성능 개선을 위해 인간의 입술형태가 코를 중심으로 하여 좌우 대칭인 점에 착안하여, 입술 ROI 영상을 절반으로 접은 영상을 인식 수행을 위한 입력 이미지로 활용하여 데이터의 크기를 줄이고 접어진 입술 영상은 픽셀들의 평균값들이므로 영상잡음 요소 및 좌우 측면 조명의 불균형에 대한 강인함을 갖게 하여 조명에 대한 보상을 하였다. 또한 접어진 영상을 시간영역에서 프레임간 필터링하는 과정을 통해 입술 이미지에서 불필요한 영상 정보를 제거하였다. 프레임간 필터는 조명에 의한 영상의 찌그러짐을 제거하기 위하여 사용되는 대역통과필터로서 입술영상 변환에 기반한 립리딩 알고리듬의 성능이 조명에 따른 왜곡에 심하게 영향을 받는다는 사실에 착안하여 필터링을 통해 불필요한 정보를 제거함으로써 조명변화에 강인하도록 시스템을 개선하였다. 제안한 방법을 적용한 각각의 실험 결과는 입술 영상접기를 이용하였을 경우 파라미터의 감소를 통해 인식의 속도가 향상되었으며 71.1%의 인식성능을 보였다. 그리고 프레임간 필터링을 수행하였을 경우 조명의 영향에 의한 성분을 제거하여 72,7%의 인식성능을 보여주었다. 각각의 제안한 방법들이 기본 시스템에 비해 인식률이 향상을 보여 본 논문에서는 기본 시스템에 입술 영상접기와 프레임간 필터링을 모두 적용하여 시스템을 개선하고 그 성능 실험을 하였으며 그 결과 인식률이 73%로서 약 10% 이상의 성능향상을 보였다. Lip-reading is studied for using image information including lips of a speaker at the existing speech recognition system. This technique is a compensation method to increase recognition rate decreasing remarkably in noisy circumstances. It is a field of bimodal capable of speech cognition with only lip image using change of lips as input information. In this paper, we made quality experiments for implementing baseline lip-reading system with basis of Hidden Markov Models(HMM) recognition and a method of the image basis. This lip-reading system was implemented by way of the image basis, which resulted in showing 62.4% of recognition rate. Most of the present lip-reading researches bring on limited results under laboratory's conditions, and in reality there is few research under wide range of dynamic environments. This research is for identifying stability of lip-reading performance to environmental changes and main factors generating a falling-off of recognition rate based on the baseline lip-reading system. We considered many factor like movement, rotation, spatial changes and illumination changes by light as dynamic varieties of lip image. We used both simulation data by image changes and data collected under automobile circumstances in the Intensive dynamic changes as experimental data, As the result of experiments, we found spatial changes of lips were a factor of a fall-off of recognition performance. However, changes of illumination conditions to the flow of time were the more serious fall-off of performance than spatial changes, resulting in more than 70% of distortion. Thus, changes of light were the most considerable factor to Implement reliable lip-reading system. The research was for improvement of quality of the baseline lip-leading system to resist changes of illumination. We found that the shape of lips was symmetrical with the center of a nose. We could decrease the size of data through utilizing the input image for recognition performance with folded lip image, We also compensated illumination by resisting factors of image noise and imbalance of sides' illumination because folded lip image were the average value of pixel. We eliminated unnecessary image information from lip image through inter-frame filtering folded images at the time domain. We improved the system to resist illumination changes by eliminating unnecessary information through filtering, It resulted from the facts that inter-frame was the bandpass filter used to eliminate distortion of images by illumination and the quality of lip-reading algorithm based on lip image changes was widely influenced by distortion by illumination. In the case of using method of lip image folding, each result of the experiments applying to the proposed ways improved the speed of recognition through reduction of parameter, resulting in 71.7% of recognition. Also in the case of performing inter-frame filtering, it showed 72.7% of recognition rate by eliminating factors influenced by illumination. In this paper, we applied both lip image folding and inter-frame filtering to the system, because the proposed ways brought in better recognition rate than the basic system, resulting in the improvement of the system, to show over 10% performance improvement in the light of quality experiments.

      • 강인한 음성인식을 위한 계산적 청각 장면 분석 기반 음성분리 개선방법에 관한 연구

        최태웅 광운대학교 대학원 2013 국내박사

        RANK : 248703

        음성인식은 일상생활에서 특별한 도구 없이 음성만으로 기계 장치와 정보 교 환을 할 수 있는 도구로 오랜 연구 성과들이 실생활에 적용될 수 있을 정도로 성장을 거두어 왔다 최근에는 . 스마트폰, 스마트 TV, 이동로봇과 같이 많은 응 용이 이루어지고 있으며 산업적으로 고부가가치의 기술로 성장하고 있다. 하지 만 음성인식의 가장 어려운 문제인 환경적인 여러 원인은 자유로운 음성인식 사용의 제약을 가져오고 있다. 이런 이유로 인한 인식성능 저하는 사용자로 하 여금 불편함을 느끼게 하고, 사용의 거부감을 느끼게 하는 원인이 된다. 환경적 원인을 해결 하는 것은 강인한 음성인식을 위한 매우 중요한 기반 기술이다. 특 히 배경소리와 여러 사람들의 음성들이 포함된 신호가 혼합된 환경을 칵테일파 티 문제(cocktail party problem)라 알려져 있는데 이 문제를 해결하기 위해 음 성인식 시스템에서는 음성신호와 간섭신호를 분리하는 신호 분리 방법이 필요 하다. 입력 장치의 관점에서 두 개 이상의 마이크로폰을 이용한 분리방법들은 효과적으로 신호분리를 수행할 수 있다. 하지만 공간적인 제약을 가져오는 소형 의 작은 단말기 시스템에서는 분리가 어려운 단점을 지닌다. 단일 마이크로폰상 의 신호 분리의 접근 방법들 중 인간의 청각인지 시스템을 모방한 계산적 청각 장면 분석(Computational Auditory Scene Analysis: CASA)은 매우 효과적으로 신호 분리를 수행한다. CASA는 청각신경 분석에서 얻은 시간과 주파수(T-F) 특징으로부터 진폭 변조(Amplitude Modulation)와 피치 검출(Pitch Detection)을 통하여 음성 분리에 기반을 두고 음성만을 분리 한다. CASA를 기반으로 하 는 음성분리 시스템은 음성의 주기성 즉, 유성음을 근거로 분리마스크를 생성한 후 음성과 간섭신호를 분리함에 따라 시간과 주파수의 주기성 성분의 특성 분 리는 효과적으로 수행한다. 하지만 주기성을 보이지 않는 신호에 대해서는 분리 성능의 어려운 문제를 지니고 있다. 이러한 문제는 무성음의 손실을 가져오며, 음성인식에서 인식의 오류를 초래하는 원인이 된다. 이러한 문제점을 해결하기 위하여 본 연구에서는 CASA 음성 분리 시스템에서 유성음을 분리한 후 잔여 신호로부터 무성음을 추출하여 보상하는 방법과 분리성능 개선을 위하여 이진 영상 처리에 근거한 모폴로지 기반 분리 마스크 침식 스무딩(Smoothing) 방법 을 제안한다. 실험에 사용한 잡음 데이터베이스는 Noizus의 8종류의 잡음환경 음성을 사용 하여 제안한 무성음 보상 방법과 모폴로지(Morphology) 이진마스크(Binary Mask) 침식(Erosion)을 통한 스무딩을 통해 얻은 분리 음성의 SNR(Signal to Noise Ratio)과 객관적인 음질 평가인 PESQ(Perceptual Evaluation of Speech Quality)로 기존 방법들과 비교 평가를 수행 하였다. 인식률 비교를 위한 음성인식 시스템은 증권 상장 회사명 100단어를 인식할 수 있는 HMM 화자 독립 인식 시스템으로 남녀 각각 50명의 화자 총 100명의 음성을 사용하여 잡음이 없는 클린 음성 데이터를 모델 학습에 사용하였고, 간 섭신호가 잡음일 때 인식률과 간섭신호가 음성일 때 인식률을 평가하였다. 간섭 신호가 음성일 때 음성 혼합 환경은 모델 학습에 참여하지 않은 임의의 남녀 화자 각각 5명의 혼합 음성을 기존 음성 분리방법과 제안한 음성 분리방법의 인식 실험을 수행 하였다. 실험 결과 잡음에 오염된 신호로부터 무성음 보상 방법과 모폴로지 이진마스 크 침식 스무딩 방법을 통하여 음성 분리를 수행한 결과 기존 방법에 비해 신 호 대 잡음비가 평균 7.09dB 향상을 보였고, 평균 PESQ 점수는 기존 방법에 비해 평균 0.54점의 음질 개선을 보였다. 인식률 평가에 있어서 깨끗한 음성의 인식률은 평균 97.36% 였고, 간섭신호가 잡음 이었을 때 분리음성의 인식률은 SNR이 0dB, 5dB, 10dB, 15dB에 대하여 기존 CASA방법 은 평균 56.2%를 보 였고, 제안한 방법은 71.9%를 보여 제안한 방법의 음성 인식률이 평균 15.7% 향상을 보였다. 또한 간섭신호가 음성이었을 때의 목표 대 마스커비(TMR)인 -9dB, -6dB ,-3dB, 0dB, 3dB, 6dB 에 대하여 기존 CASA방법을 통해 얻은 분 리음성의 음성 인식률 평균은 38.1%를 보였고, 제안한 방법을 통해 얻은 분리 음성의 인식률 평균은 47.0%를 보여 전체 TMR에서 평균 8.9%의 인식률의 향 상을 보였다. 따라서 본 논문에서 계산적 청각 장면 분석 기반 음성 분리 개선 방법을 통하여 강인한 음성인식을 위한 방안을 제시하였다. Speech recognition means a method to communicate with machineries without any special equipment only with speech in our lives, and it has been grown as results of study for a long time have been used in real life. Recently, this has been used for many applications like Smart phone, Smart TV and Mobile Robot and this has been grown as a higher value added business. However, many various environmental causes, the most difficult problem of speech recognition, restrict the usage of speech recognition freely. Therefore, low performance from this makes users feel difficulties to use it and avoid using it. Ways to solve this problem are very important based technique for robust speech recognition. Especially, cocktail party problem known as an environment to which a signal including other voices to speech recognition system is inputted needs segregation methods to speech signal and interference signal. segregation methods using two or more micro phones for input device can perform segregation effectively. But, this may cause spatial constraints and it is difficult to separate it at a small terminal systems. Computational Auditory Scene Analysis(CASA), which follows human auditory system of approaches of micro phone separates the signal very effectively. CASA is based on segregated by AM(Amplitude Modulation) and Pitch Detection through Time and Frequency(T-F) characteristic getting from Auditory Peripheral. This separates interference and speech by generating binary mask, based on periodic of speech, voiced speech. This separates characteristics of periodic of Time and Frequency effectively but this has difficultly in segregation performance for the signal which does not have periodic. This problem can cause loss of unvoiced immediately and recognition error of speech recognition. So, this study suggests to separate voiced speech with CASA, unvoiced compensation methode from residual signal and improved segregated methode through morphology based binary mask erosion smoothing based on binary image processing in order to improve performance of speech. Noise database in this study uses 8 types of Noizus environment noise, Auditory Scene Analysis and Smoothing by morphology erosion binary mask, residual speech compensation methode suggested by speech performs compared evaluation with existing methods through SNR of segregated speech and PESQ, objective speech quality. To evaluate rate of suggested methods, speech recognition system uses speech of 100 people of 50 males and 50 females respectively with HMM independent of speaker recognizer which can recognize 100 words of securities listed company in order to use noiseless clean speech data to model training and uses 5 mixed speech of male and females not joining to model training for before and after recognition experiment. As a result, by CASA unvoiced compensation methods and morphology based binary mask erosion smoothing from speech segregation for noised speech, we can see that SNR has been improved as average 7.09dB for Signal to SNR than existing one and average PESQ score improved speech quality as 0.54 than existing one. For rate, rate of clean speech is average 97.36%, that by speech when interference is noise, CASA methode is 56.2% and Proposed Methode is 71.9%,we has been improved as average 15.7% for 0dB, 5dB, 10dB, 15dB SNR against existing CASA segregated methode, and average of rate before segregated speech for -9dB, -6dB ,-3dB, 0dB, 3dB, 6dB, Target to Masker Ratio(TMR) when interference is speech is 38.1% and that of segregated speech getting from suggested improved method is average 47.0%. So, from overall TMR, we can see that recognition rate has been improved as average 8.9%. Therefore, in this paper, we suggest robust speech recognition by CASA performance of segregation methods.

      • 자기지도학습 기법을 통해 추출된 저대역 음성 특징벡터 기반 종단간 한국어 음성인식

        박정준 연세대학교 공학대학원 2022 국내석사

        RANK : 248703

        본 논문에서는 콜 음성 데이터의 기본 sampling rate인 8kHz 한국어 도메인에서의 음성인식 성능 향상을 위해, 비전사 음성 데이터를 이용한 feature extractor 모델과 이를 결합한 종단간 한국어 음성인식 시스템의 딥러닝 네트워크 구조에 관하여 제안하였다. 원음성의 대표적인 특징을 잘 추출할 수 있는 contrastive learning 방법론을 사용하는 wav2vec 2.0 모델을 활용하여 8kHz sampling rate에 적합한 wav2vec 2.0의 convolution feature encoder 구조를 도출하였고, 성능 검증을 위해, 도출된 convolution feature encoder를 feature extractor 모델에 적용하고, 해당 feature extractor 모델을 8kHz sampling rate으로 변환된 Ksponspeech DB로 사전 학습하였다. 학습된 feature extractor 모델에 선형 레이어와 음절로 이루어진 소프트맥스 레이어를 추가한 후, ctc loss를 이용하여 8kHz sampling rate으로 변환된 Clovacall DB로 fine-tuning 시, 기존 wav2vec 2.0 모델 대비 CER 기준 20.4%, WER 기준 12.0% 정도의 상대적인 성능 개선이 있었다. 또한, 본 논문에서 제안한 종단간 한국어 음성인식 시스템의 성능을 검증하기 위해, 전사된 훈련 데이터가 풍부한 경우와 전사된 훈련 데이터가 적은 경우로 나눠서 다양한 실험을 진행하였고, 다양한 변인에 대한 성능 변화를 살펴보고, 성능 변화에 대한 분석을 진행하였다. 전사된 훈련 데이터가 풍부한 경우, Ksponspeech DB를 이용하여, feature extractor 모델 학습과 제안한 종단간 한국어 음성인식 시스템 학습을 진행하였으며, feature extractor 구조, encoder/decoder 구조 및 spec augmentation 적용 여부, feature extractor 모델의 학습 데이터 종류 및 훈련 업데이트 수에 따른 성능 변화를 살펴보고, 해당 성능 변화에 대한 분석을 진행하였다. 더 나아가 기존 종단간 한국어 음성인식 시스템과의 성능 비교를 진행하였고, 본 논문에서 제안한 종단간 한국어 음성인식 시스템은 기존 종단간 한국어 음성인식 시스템에 비해 Ksponspeech DB의 eval clean set에 대해서는 14.8% 이상의 상대적인 성능 향상이 있었고, Ksponspeech DB의 eval other set에 대해서는 19.0% 이상의 상대적인 성능 향상이 있었다. 전사된 훈련 데이터가 적은 경우, feature extractor 모델 학습 시에는 Ksponspeech DB 또는 Clovacall DB를 이용하였고, 제안한 종단간 한국어 음성인식 시스템 학습 시에는 Clovacall DB를 이용하여 학습을 진행하였다. 또한, 제안한 종단간 한국어 음성인식 시스템의 출력 노드에 해당되는 BPE 수 제한, feature extractor 모델의 학습 데이터 종류, pre-encoder 출력 차원에 따른 성능 변화를 살펴보고, 해당 성능 변화에 대한 분석을 진행하였다. 더 나아가, 기존 종단간 한국어 음성인식 시스템과의 성능 비교를 진행하였고, 본 논문에서 제안한 종단간 한국어 음성인식 시스템은 선행 논문 중에서 가장 높은 성능을 보인 K-Wav2vec 2.0 (Multi-task)에 비해, Clovacall evaluation set에 대해 10.9% 정도의 상대적인 성능 향상이 있었다. 본 연구는 비전사 데이터를 활용하여, 콜 데이터의 기본 sampling rate인 8kHz 한국어 도메인에서 다양한 변인에 대한 실험을 통해 제안한 feature extractor 모델과 제안한 종단간 한국어 음성인식 시스템의 성능 변화에 대한 분석을 진행했을 뿐만 아니라, 본 연구에서 제안한 종단간 한국어 음성인식 시스템은 기존 종단간 한국어 음성인식 시스템 대비 두드러진 성능 향상이 있어, wav2vec 2.0 모델을 feature extractor 모델로 사용하는 종단간 한국어 음성인식 시스템에 대한 이정표를 제시하였다는 점에서 의의를 지닌다. In this thesis, a feature extractor model using non-transcribed data was proposed to improve speech recognition performance at 8kHz, which is the basic sampling rate of call speech data in the Korean domain. The model was applied to a deep learning network structure of an end-to-end Korean speech recognition system. The wav2vec 2.0 model, which uses the contrastive learning methodology to extract representative features of the original speech well, was utilized to derive a convolution feature encoder structure of wav2vec 2.0 suitable for a sampling rate of 8kHz. This structure was applied to the feature extractor model, and the corresponding feature extractor model was pre-trained with Ksponspeech DB converted at an 8kHz sampling rate. The pre-trained feature extractor model fine-tuned with Clovacall DB converted to an 8kHz sampling rate using ctc loss was compared to the existing wav2vec 2.0 model. A relative performance improvement of 20.4% in terms of CER was observed. In addition, to verify the performance of the end-to-end Korean speech recognition system proposed herein, various experiments were conducted by classifying the cases wherein the transcribed training data were abundant and cases wherein they were not. When the transcribed training data were abundant, the end-to-end Korean speech recognition system proposed in this thesis performed better by 14.8% relative to the existing end-to-end Korean speech recognition system using the eval clean set of Ksponspeech DB. Additionally, the relative performance improvement was ≥19.0% for the eval other set of Ksponspeech DB. When a small amount of transcribed training data was used, the end-to-end Korean speech recognition system proposed in this thesis yielded an approximate relative performance improvement of 10.9% compared with K-Wav2vec 2.0 (Multi-task), which has yielded the highest performance in previous studies for the Clovacall evaluation set. In summary, this study analyzed the change in the performance of the proposed feature extractor model and the proposed end-to-end Korean speech recognition system through experiments on various variables in the 8kHz Korean domain, using non-transcribed speech data. Additionally, the end-to-end Korean speech recognition system proposed herein yielded a remarkable performance improvement compared to the existing end-to-end Korean speech recognition system. Therefore, the findings here present a significant milestone for the end-to-end Korean speech recognition system using the wav2vec 2.0 model as a feature extractor model.

      • 배경 잡음에 강인한 음성 인식 시스템에 관한 연구

        전선도 광운대학교 2000 국내박사

        RANK : 248703

        음성 인식은 실질적인 환경에서 사용 시 배경 잡음의 존재로 인식 성능이 저하된다. 그래서 음성 인식 시스템을 설계할 때 배경 잡음이 존재하는 경우에도 인식 성능이 저하되지 않도록 하는 음성 인식 시스템이 연구되어야 한다. 이러한 연구에는 크게 3가지로ㅆ 잡음 제거, 잡음에 강인한 음성 파라미터 추출, 인식 알고리듬에서 잡음 보상에 관한 연구가 있는데 본 연구는 이 3가지 방법에 대해 각각을 제안하였고 이것을 하나의 시스템으로 적용하였다. 이 제안한 방법과 시스템의 평가를 위해 남성 4화자의 34단어를 두 번 발음한 음성을 잡음과 혼합하여 인식 실험을 하였다. 배경 잡음으로는 달리는 차량 내에서의 엔진 소리, 차바퀴와 지면과의 마찰에 의한 소리가 존재하는 잡음과 갑작스럽게 지나가는 사람이 말을 한다던가, 차가 지나가는 소리가 존재하는 학교 내 운동장에서의 거리 잡음을 녹음하여 사용하였다. 또 실험에서는 이러한 두 가지 배경 잡음의 크기를 달리하여 음성과 혼합함으로써 4가지 배경 잡음 환경으로 실험하였다. 본 연구에서 첫 번째 제안한 방법은 적응적인 경계값을 갖는 가중치 주파수 차감법이다. 이 가중치 주파수 차감법의 잡음 추정 방법에서 경계값 파라미터를 추정하여 잡음의 변화 정도에 따라 경계값을 가변시키는 방법을 제안한다. 실험에 의하여 고정적인 경계값을 갖는 가중치 주파수 차감법에 비해 제안한 주파수 차감법이 높은 SNR을 갖고 높은 인식률을 보임으로 성능이 우수함을 확인하였다. 또 두 번째로 제안한 방법은 성문 가중 켑스트럼 추출 방법이다. 이 방법은 잡음에 강인한 음성 파라미터인 PLP 켑스트럼에 음성합성 시스템에서 좋은 결과를 보이는 비대칭의 성문 펄스파를 가중시키는 방법이다. 이 제안한 성문 펄스 가중 켑스트럼은 청각 모델인 PLP를 사용하였으며, 성도 모델인 성문 펄스를 가중 함수로 적용하여 성도 파형의 형태를 의미하는 켑스트럼을 다시 정형화하는 형태로써 분석하였다. 인식 실험 결과에서는 본 논문에서 제안한 가중 켑스트럼 방법과 다른 가중 켑스트럼 방법과 비교하여 인식률을 평가해보고, 이러한 청각 모델에 의한 PLP와 성도 모델에 의한 성문 가중 함수를 결합한 것이 잡음에 강인한 음성 파라미터임을 확인하였다. 그리고 세 번째로 제안한 방법은 반연속 HMM에서 가우시안 함수 변형 및 결정 방법이다. 이 방법은 잡음제거 방법에서 존재하는 음성 손실에 대한 보상 방법이다. 잡음에 강인한 음성 인식 시스템을 구현하기 위해서 먼저 배경 잡음을 제거한 이후에 인식에 적용한다. 그러나 잡음 제거 시스템에서 잡음을 제거한다고 하여도 잡음을 제거하는 과정에서 잡음뿐만 아니라 음성까지 제거시켜 오히려 음성 인식의 저하를 가져오는 경우가 발생한다. 제안한 방법은 추정한 잡음과 차감된 추정 음성 신호간의 SNR을 기준으로 차감된 음성의 가우시안 분포 및 혼합된 음성의 가우시안 분포를 변형 및 결정하면서 반연속 HMM에 적용하는 방법이다. 이러한 방법은 잡음 제거 방법인 차감법이 오히려 음성 인식에 저하를 가지고 오는 경우에 대해 프레임 별로 보상해주는 방법이 된다. 실험 결과로써 제안한 방법이 단지 차감만 한 경우보다 높은 인식률을 보임으로써 이 방법이 주파수 차감한 신호의 가우시안 함수와 차감하지 않은 신호의 가우시안 함수를 효과적으로 변형 및 결정하는 방법이며, 음성 정보의 손실을 보상해 주는 것임을 확인할 수 있었다. 본 연구에서 제안한 3가지 방법을 서로 상호적으로 연관시켜 잡음에 강인한 음성 인식 시스템을 설계할 수 있다. 즉, 적응적 경계값을 갖는 가중치 주파수 차감법에 의해 먼저 배경 잡음을 제거한다. 이 때 얻어진 잡음 제거된 음성 신호에서 성문 가중 켑스트럼을 추출한 후 인식 알고리듬인 반연속 HMM에 적용한다. 이 때 주파수 차감법에 의한 음성 손실에 대한 보상으로 반연속 HMM의 가우시안 함수의 변형 및 결정을 한 후 Viterbi 경로에 의한 확률값에 적용한다. 실험 결과에서 기존의 차감법을 하지 않고 PLP와 반연속 HMM을 적용한 경우와 비교할 때 고속도로를 달리는 차량 내 배경잡음 환경에서 44%의 인식률을 제안한 인식 시스템에서는 80.5%의 인식률로 올렸고, 차량 내에서 63.6%의 인식률을 제안한 시스템에서는 90.8%의 인식률로 올렸다. 그리고 학교 내 거리의 배경잡음 환경에서 34.6%의 인식률을 제안한 시스템에서는 80.5%의 인식률로 올렸고, 학교 내 거리에서 50%의 인식률을 제안한 인식 시스템에서는 90.4%의 인식률로 올렸다. 결과로부터 제안한 3가지 방법을 모두 이용해 하나의 시스템으로 설계한 음성 인식 시스템이 배경 잡음 환경에 강인한 인식 성능을 보임을 확인할 수 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼