RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • RIS판독을 위한 연속음성 인식기 구현에 관한 연구

        김대섭 동신대학교 대학원 2006 국내석사

        RANK : 248703

        본 논문에서는 의료영상을 위한 연속음성 인식기를 구현하기 위해 의료영상 DB 구축, 언어모델 적용, 2-pass 알고리듬 기반의 연속음성 인식기를 연구하였다. 의료영상 DB구축에서는 의료영상을 진단하는 RIS(Radiology Information System)에서 방사선 전문의가 구술하는 진단의 내용을 의료진단 전용의 연속음성 인식엔진을 사용하여 판독의 신속 및 신뢰성을 꾀하고, 자동화를 실현하여 판독 비용을 절감하고자 한다. 언어 모델에서는 교정학습 방법을 사용하여 연속음성 인식기의 인식성능을 향상시키고 연속음성 인식기에서는 인식기의 성능개선을 위하여 1-pass, 2-pass 알고리듬을 구현하여 1-best의 unigram tree를 적용한 경우, 32.6%의 WER를 보였으며, bigram tree의 경우는 27.1%의 WER를 보였다. 이를 통해 1-pass 알고리듬에 비해서 2-pass 알고리듬을 적용하였을 때 인식 성능이 향상됨을 확인하였다. 따라서 본 논문에서 확인된 인식결과를 근거로 인식기의 성능향상과 음성판독을 위한 시나리오의 연구가 필요할 것으로 사료된다. In this paper we discuss the implementation of a continuous speech recognition system for reading images of Radiology Information System (RIS). We implemented the two-pass algorithm based speech recognition system based on RIS speech database and n-gram language model. The purpose of this paper is the automation and the cost reduction of reading RIS images. The documentation of RIS images is usually performed by human dictator. For language model we apply corrective training based language model and two-pass algorithm for the enhancement of the speech recognizer. The experimental results show that the recognition ratio is 32.6% WER (word error rate) for unigram tree and 27.1% WER for bigram. Also we verify that two-pass algorithm outperforms one-pass method. For further works we will study scenarios of our speech recognizer for applying it to the real service domain.

      • HMM에 의한 실시간 연속음성 인식시스템 구현에 관한 연구

        이영재 동아대학교 1996 국내박사

        RANK : 248687

        This paper is a study on the composition of Real-Time Continuous Speech Recognition System for Man-Machine Interface and it examines the posibility that applies to automatic system. HMM model can be classified into Continuous Distribution HMM and Discrete Duration Control HMM, and the recognition algorithm can be classified into O(n)DP method and One Pass DP method in order to choose HMM model and recognition algorithm. The simulation is implemented for 35 continuous speech samples of four connected spoken digits in two cases which are divided into two submodels according to whether the regression coefficients are included or not. As a result of the simulation, the average recognition rates show 93.0% and 80.5% respectively for two cases; the one is Continuous Distribution HMM model which includes regression coefficients and the other does not include when O(n)DP method is used. Average recognition rates show 93.4% and 84.4% respectively for two cases the one is Discrete Duration Control HMM model which includes regression coefficients and the other does not include when O(n)DP method is used. When HMM model does not include regression coefficients, the average recognition rate of One Pass DP method is better improved than that of O(n)DP method by 12%. The Continuous Speech Recognition System is composed of Continuous Distribution HMM model and algorithm of One Pass DP method which are chosen by the consideration of computing time and recognition rate according to the result of simulation. Continuous Speech Recognition System is composed so that it may detect start point and end point of speech data which are converted into samples by 10 KHz, 8 bit A/D within real time, then so that it may recognize them by One Pass DP method, display the result of recognition on PC monitor and at same time send control data to Interface. HMM models are created by training for continuous speech samples which are control words, area names and digital sounds. In the result of experiment by Continuous Speech Recognition System, there are some kind of errors which are insertion, replacement and deletion of one syllable, but it examined the posibility that can be applied to Man-Machine Interface on automatic system if post-process is performed for recognition.

      • 화자적응화 연속음성인식 시스템 구현에 관한 연구

        김상범 東亞大學校 大學院 1999 국내박사

        RANK : 248687

        음성은 인간적 가장 자연스러운 의사소통의 수단이며 이러한 음성에 의한 인간-기계 인터페이스는 속도가 빠르고 특별한 훈련이 없이도 이루어진다. 또한 컴퓨터 및 정보통신 기술의 급속한 발전으로 음성인식 기술은 중요한 연구 과제가 되고 있다. 이러한 음성인식에 관한 연구는 HMM과 신경망에 의한 방법들이 활발히 진행되고 있다. 현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하며 특정 환경 및 특정화자 모델에 근접한 인식률을 얻는 방법이 주목되어지고 있다. 본 연구에서는 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자 적응화 할 수 있는 방법을 제안하였다. 음절단위 HMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리듬으로 음절단위의 추출을 자동화한 후 MAP(최대사후확률추정)을 이용하여 적응화하였다. 시뮬레이션 실험에서는 음절 DDCHMM(지속시간제어 HMM)모델을 학습한 후 연속음성을 화자 적응화 하였다. 신문사설에 대한 인식결과에서, 적응화한 경우 인식률이 71.8%로 적응화 전보다 약 37% 향상되었다. 적응화때 사용되는 웨이트값의 변화에 따른 인식률은 크게 차이가 나지 않았으며, ML추정에 의한 파라미터의 MAP추정과 Viterbi 알고리듬에 의한 추출 프레임의 MAP추정에 의한 인식률 변화도 크게 나지 않았다. PC에서 실시간 음성인식 시스템을 구축하여 음절 또는 문장을 인식 실험하였다. 인식시스템은 마이크를 통해 입력되는 음성을 A/D변환하여, 환상형 버퍼에 순환적으로 저장되도록 구성하였고, 시작점과 끝점을 검출하여 무음 구간을 제거한 음성부분만을 저장용 버퍼에 저장하도록 하였다. 저장용 버퍼에 저장된 음성은 음성분석과정에서 10차 멜 켑스트럼을 구하여 학습 및 인식용 음성 파라미터로 사용할 수 있도록 하였다. 연속음성 인식률 향상을 위해 OPDP(One Pass DP)법을 사용하여 자동차 제어문을 실시간으로 인식실험한 결과 약 90% 이상의 인식률을 얻을 수 있었다. 이상의 연구결과는 이미 만들어진 모델에 대하여 새로운 화자가 발성한 적은 데이터를 이용하여 적응화 된 모델을 만들 수 있을 뿐만 아니라, 상당한 인식률 향상을 가져 올 수 있었다. 그리고 본 연구에서 제안한 방법을 더욱 개선하면 향후 온라인 시스템, 대화시스템 및 자동통역 시스템의 실시간 처리 음성인식 시스템의 구현을 이룰 수 있을 것이다. The man-machine interface through speech has benefits in that it is fast and can be performed without special training. The establishment of speech recognition technology is becoming an important research subject because the computer and telecommunication technology are developing rapidly. Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by additionally small amount of adaptation data to the special environments and speaker models get highly good recognition rate. In this study, speaker adaptation of uttered sentence using syllable unit HMM is proposed. Making data-base of syllable unit HMM model and segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation). In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit DDCHMM model. As a result of the simulation, for newspaper editorial continuous speech, the recognition rates of adaptation of HMM was 71.8% which is approximately 37% improvement over that of unadapted HMM. There are not too much differences of recognition rates by varing adapted weight values, and by comparing MAP estimation using segmented frame sample and MAP estimation using ML estimated parameter sample. we have realized real time speech recognition system in IBM PC. Recognition system is composed so that it may detect start and end time of A/D converted speech data which is stored into circular buffer continuously and remove unvoiced data region, then so that it may calculate me1 cepstrum and recognize them by O(n)DP within real time. Using OPDP method to get better recognition rate, the recognition rates of sentences of car control command was 90% as high recognition performance. In the result of experiment, speaker adaptation method can adapt a speaker-independent models to new speaker using small amount of new speaker uttered speech data, and can achieves high recognition performance in the speech recognition system. Henceforth, it will realize voice-online-system, dialogue system and automatic interpreter of real time speech recognition system if suggested method is improved.

      • 적응필터링 기법을 이용한 잡음음성의 화자적응화에 관한 연구

        이종연 東亞大學校 大學院 1999 국내석사

        RANK : 248686

        현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하여 특정 환경 및 특정화자 모델에 근접한 인식률을 얻는 방법이 주목되어지고 있다. 음성인식을 실생활에 이용하기 위해서 인식률을 저하시키는 요인인 잡음을 감소시켜야 한다. 본 논문에서는 RLS적응필터를 이용하여 잡음을 감소시켰다. 그리고 기존의 Mel Cepstrum 대신 SGDS(Smooth Group Delay Spectrum)을 특징 파라미터로 사용하였다. 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자 적응화할 수 있는 방법을 제안하였다. 음절단위 HMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리듬으로 음절단위의 추출을 자동화한 후 MAP(최대사후확률추정)을 이용하여 적응화하였다. 음절 CHMM(연속분포 HMM)모델을 학습한 후 연속음성을 화자 적응화 하였다. 시뮬레이션 실험에서는 잡음음성을 필터링한 경우와 하지 않은 경우에 대하여 인식실험을 하였다. ML로 추정한 파라미터를 가지고 MAP 추정한 경우와 Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 MAP 추정한 경우에 대한 화자적응화 실험이다. 연속음성 인식방법으로는 O(n)DP법을 이용하였다. 실험결과, ML로 추정한 파라미터를 가지고 평균, 분산, 평균과 분산을 MAP 추정한 경우 분산만을 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 75.2%, 55.8%, 46.1%이고, 필터링한 후의 인식률은 각각 75.7%, 74.5%, 71.0%이다. Viterbi 알고리듬으로 추출한 프레임을 샘플로 하는 평균, 분산, 평균과 분산을 MAP 추정한 경우 평균과 분산을 동시에 추정하였을 때 가장 높은 인식률을 보였다. 신호대잡음비가 10dB, 5dB, 0dB인 경우 필터링하기 전의 인식률은 각각 68.5%, 62.8%, 42.8%이고, 필터링한 후의 인식률은 각각 72.5%, 73.0%, 75.9%이다. Nowadays, the speech recognition systems using DP matching, HMM and neural network are going on studying continuously. One of them, recognition system using HMM has been studied widely. Especially speaker adaptation methods which train models by additionally small amount of adaptation data to the special environments and speaker models get highly good recognition rate. In order to apply speech recognition to real life, we have to reduce the noise that makes recognition rate reduced. In this paper, the RLS adaptive filter reduce the noise. In stead of MEL Cepstrum which now is used in speech recognition, SGDS(Smoothed Group Delay Spectrum) as a parameter is used. In this study, speaker adaptation of uttered sentence using syllable unit HMM is proposed. Making data-base of syllable unit HMM model and segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and Viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation). In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit CHMM model. There are two ways in speaker adaptation. One is to estimate MAP with the ML parameter. The other is to estimate MAP with the frame sampled by Viterbi Algorithm. O(n)DP method is used in continue speech recognition method. MAPE by the ML estimated mean, covariance, and mean-covariance. The highest recognition rate is when MAPE by covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 75.2%, 55.8%, and 46.1%, before filtering. After filtering, the rate is 75.7%, 74.5%, and 71.0%. Among MAPE by mean, covariance and mean-covariance with the frame sampled by Viterbi Algorithm. The highest rate is when MAP is estimated by mean-covariance. When SNR is 10dB, 5dB, 0dB each, recognition rate is 68.5%, 62.8%, and 42.8%, before filtering. However, the rate is 72.5%, 73.0%, and 75.9% after filtering.

      • 한국어 연속음성 인식 시스템의 구현

        이종진 東亞大學校 大學院 1995 국내박사

        RANK : 248670

        The continuous speech recognition system for korean language studied in this paper can be classified into two major groups. One of them consists of continuous distribution HMM and the discrete-duration-control HMM(classification according to the structure of HMM model), and the other consists of the O(n)DP method and the One Pass DP method(classification according to the recognition algorithm). Each of the former models divides into two submodels according to whether the regression coefficients are included or not. The unit of recognition here is a mixed form of syllable unit and word unit, and the training is done all with syllable unit. To compare and analyze the efficiency of each of the continuous speech recognition system, 35 continuous speech samples of four connected spoken digits, 25 sentences of robot control commands, and 10 sentence extracted from newspaper editorial has been tested. Experiment results are as follows: <1> For 4 connected spoken digits, the average recognition rates of the continuous distribution HMM and the discrete-duration-control HMM turn out to be 82.9% and 93.0% respectively, when the regression coefficients are not included. This result shows 10.9% improvement in the recognition efficiency of the discrete-duration-control HMM. When the regression coefficients are used, recognition errors by insertion increase, while those by deletion and substitution decrease. This explains why only 2.2% improvement was obtained. This problem can be easily overcome with some simple pre-processing or post-processing. <2> For spoken digits, the average recognition rate of the One Pass DP method was 91.3%, which is approximately 9% improvement over the standard HMM. This proves the efficiency of this method in the matter of context control. <3> For robot control commands, the recognition rates of the continuous distribution HMM and One Pass DP were 90.9% and 98.4% respectively. This result reveals remarkable improvement in the context control. <4> For newspaper editorial continuous speech, the recognition rates of the continuous distribution HMM and the discrete-duration-control HMM were 84.5% and 88.4% respectively, which shows approximately 4% improvement. <5> In conclusion, the application of parameters such as the discrete duration control and the regression coefficients to the continuous distribution HMM, makes out a big improvement in the recognition rate. It is found however, that the more parameters we use, the longer it takes to learn and recognize the model, and the more complicated the accounting becomes. It should also be noted that the continuous speech recognition system with the finite-state-automata context control is not applicable to a large-vocabulary continuous speech recognition system. Finally, there has to be a serious consideration of how to use context free grammar and probability grammar to apply the language processing model to a larger continuous speech recognition system. It is also urgent to study the proper korean contextual structure.

      • HMM을 이용한 연속음성인식 시스템의 화자적응화에 관한 연구

        김창근 東亞大學校 大學院 1998 국내석사

        RANK : 248670

        현재의 음성인식 시스템에는 DP매칭법, HMM 및 신경회로망으로 처리하는 연구가 계속되고 있다. 연속음성 인식에서는 HMM을 이용한 인식연구가 활발히 이루어지고 있으며 화자적응화 방법을 이용하여 소량의 적응화용 데이터를 추가적으로 학습하여 특정 환경 및 특정화자 모델에 근접한 인식율을 얻는 방법이 주목되어지고 있다. 본 연구에서는 음절단위의 HMM을 이용하여 발성된 한 문장에 대해 화자적응화 할 수 있는 방법을 제안하였다. 음절단위 DDCHMM모델을 구축한 후 적응화 하고자 하는 환경 및 화자의 데이터(음절 및 문장)를 연결학습법과 Viterbi 알고리즘으로 음절단위의 추출을 자동화한 후 MAPE(최대사후확률추정)을 이용하여 적응화 하였다. Nowadays, the speech recognition system using DP matching, HMM and neural network are going on studying continuously. One of them, Study of recognition system using HMM have been widely. Especially speaker adaptation method which is adpating additionally small amount of adaptation data to the special environments and speaker models gets highly good recognition rate. In this study, Speaker adaptation of uttered sentence using syllable unit hmm is proposed. Making data-base of syllable unit DDCHMM model, Segmentation of syllable of speaker data(syllables and sentence) for adaptation is performed automatically by concatenation training and viterbi algorithm. And speaker adaptation is performed by MAPE(Maximum A Posteriori Probability Estimation). In simulation test, Continuous speech data is adapted by MAPE, after training syllable unit DDCHMM model, As a result of the simulation, newspaper editorial continuous speech, the recognition rates of adaptation of HMM was 71.1% respectively which is approximately 168% improvement over that of unadapted HMM. There is not too much difference of recognition rates varing adapted weight values and comparing MAP estimation using segmented frame sample and MAP estimation using ML estimated parameter sample. Next we have experiment by real time speech recognition system in IBM PC. Recognition system is composed so that it may detect start and time of A/D converted speech data which is stored into circular buffer continuously and remove unvoiced data region, then so that it may calculate mel cepstrum and recognize them by O(n)DP within real time. Recognition rate of adaptation of HMM is better improved than that of unadaptation of HMM. Using OPDP method to get better recognition rate, the recognition rates of sentences of Car control command and digit show 95.2% as highily good one. In result of experiment, speaker adaptation method is the way of getting good recognition rate through adapting additionally small amount of adaptation data. and It may helpful to built voice-online-system, dialogue system and automatic interpreter if refer to real time speech recognition system.

      • 한국어 연속 음성 인식에 있어 운율 정보의 계산적 모델

        강평수 전남대학교 대학원 1999 국내석사

        RANK : 248670

        운율 정보를 연속 음성 인식에 적용하기 위한 방안으로서 발화된 인식 대상 음성과 운율 경계 강도의 적합성 검사를 하는 방안을 제안하였다. 즉, 주어진 텍스트에서 예측된 운율 경계 강도와 음성으로부터 예측된 운율 경계 강도를 이용하여 문장 인식에 적용하는 방안을 제안하였다. 이를 위하여 발화된 200개의 낭독체 문장(spoken sentence)에 대하여 청취 테스트를 통하여 운율 경계 강도를 레이블링하였다. 이를 바탕으로 하여 문장으로부터 운율 경계 강도를 예측하는 방법을 문장의 나무구조와 표면 구조를 이용하여 연구하였으며, 한편으로 음성으로부터 운율 경계강도를 결정하는 알고리듬을 개발하였다. 이 방법은 길이 정보를 기존의 LDA 방법에, 피치정보를 VQ에 적용하여 tri-tone이란 개념을 도입하여 혼합한 모형이다. 위의 모형의 능력을 측정하기 위하여 애매한 문장(ambiguous sentences)을 대상으로 하여 연속 음성 인식 실험을 하였다. 연속 음성 인식 부분은 연속 음성 인식 툴인 HTK를 이용하였으며 운율 부분은 앞의 실험을 통하여 얻은 모듈로 실험에 이용하였다. 인식 실험 결과 운율 정보를 이용하지 않은 모형보다 12%의 인식률 향상을 얻어내었다. In this study we proposed a new method to apply prosody information to a continuous speech recognition system. The main concept of our proposed method was based on prosodic boundary strength(PBS). First, the PBSes are predicted from the recognizing sentence. Second, PBSes are predicted from the spoken utterance. Then, the pairs of PBS sequences are compared statistically to apply to select the most probable sentence among n-best sentence. Based on the above concept, I performed listening test with which the PBSes were determined for every utterances and studied prediction methods which could estimate PBSes from the sentence with tree and surface structures of the given sentence. Besides, I suggested the algorithm for the estimation of PBSes from the spoken utterances using prosodic information. The algorithms is LDA-VQ model: LDA was applied to the duration information and VQ model was used for ujeol-boundary pitch information. Finally, syntactic informations and prosodic informations are mixed to apply to the n-best speech recognition. Experimental result showed 12% higher recognition rate than the experiment without using prosody information.

      • 음성신호의 SNR 추정기법에 관한 연구

        송영환 숭실대학교 일반대학원 2009 국내석사

        RANK : 248655

        음성은 사람이 다른 도구 없이 사용하는 정보 전달 매체로서 가장 많이 이용될 뿐 아니라 가장 간편한 수단이다. 음성을 통하여 의사전달을 할 때 잡음레벨의 정도에 따라 음성을 통한 의사전달은 영향을 받게 된다. 또한, 음성 분석 및 인식 시스템은 잡음이 없거나 비교적 조용한 실험실 환경에서는 좋은 성능을 나타내지만, 실제 현장에서 사용할 경우에는 여러 가지 잡음 요인들에 의하여 성능이 현저히 저하된다. 이처럼 잡음이 끼치는 영향은 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 매우 크다. 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 상관관계가 적은 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호의 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다. 잡음환경에서의 실험 결과, 묵음구간이 존재하지 않는 연속 음성신호에 대해 백색잡음 환경에서 높은 SNR 추정 결과를 보여주었다. 또한 여러 잡음환경에서 절대적 SNR 추정결과 및 상대적 SNR 추정 결과를 확인하였다. 본 논문에서 제안한 유성음 영역에서의 추정방법 및 유·무성음의 에너지를 사용한 방법은 시간영역법으로서 간단한 연산을 통해 이루어지며, 무성음 영역에서의 추정방법은 협대역 음성신호에서도 성도특성으로부터 음성신호만을 이용한 잡음 레벨의 추정이 가능한 장점을 가진다. 또한 Vocoder에서 전송률 결정에 응용될 수 있으며, 음성향상 알고리즘에서 잡음제거 정도를 결정하기 위한 전처리법으로 활용이 가능하다. 또한 연속 음성신호에서 SNR 추정 결과에 따라 LPC 차수를 적응적으로 적용시켜 시스템의 효율을 높이는데 사용될 수 있다. As communication medium of information, speech is not only used a lot, but also is the most comfortable. When we have conversation by speech, transmission of the information, which wanted to be delivered, is affected by the noise level. Speech analysis and recognition system are operated well without noise in laboratory. There is, however, lots of noise in practice. So the performance of system is reduced rapidly. Likewise, the effects of the noise have to be considered on the speech signal processing such as speech recognition, synthesis, and analysis. In speech signal processing, speech enhancement is used to improve speech signal corrupted by noise. Noise estimation algorithm should be adopted quickly and applied on silence region to avoid effects of speech signal. So voice activity detection method must be done previously. However, if silence region is not existed on received signal, it could not be able to applied. In this paper, we proposed SNR estimation method for continuous speech signal without silence region. For stationary region of voiced speech signal, waveform is very correlated by pitch period since voiced speech is quasi-periodic signal. So we can estimate the SNR by correlation of near waveform after dividing a frame for each pitch. For unvoiced speech signal, vocal track characteristic is reflected by noise, so we can estimate SNR by using spectral distance between spectrum of received signal and estimated vocal track. Lastly, energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced. We confirmed the performance from experimental result. It shows high performance for white Gaussian noise circumstance. And for other noises, we obtained SNR estimation results, which are absolute and relative. The proposed estimation method on voiced speech and the method by using v·unvoiced region energy are operated with simple logic as time domain method. And the estimation method on unvoiced region is possible to estimated noise level for narrow-band speech signal by using vocal track properties. It can be applied to rate decision of vocoder and used for pre-processing to decide threshold of noise reduction. In addition, it can be used to improve system efficiency by appling different LPC order through estimated SNR adoptively.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼