http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
黃英洙 관동대학교 1994 關大論文集 Vol.22 No.2
This paper is study o the phoneme recognition using neural network. The two neural network are proposed. The first neural network is used the time delayed imput data in order to employ the non-linear relation between input data. The second neural network is made to be able to deal with the structure of the frequency bands as well as the temporal structure of phonemic features. We trained these neural networks using the phonetics(아, 이, 오, ㅅ, ㅊ, ㅍ, ㄱ) and the phoneme recognition of the second neural network was much better than that of convential TDNN, and the first neural network.
黃英洙 관동대학교 1998 關大論文集 Vol.26 No.2
This paper is study on the speech recognition using neural network. The used neural network in this paper are fuzzy ARTMAP(adaptive resonance theory mapping) and MLP(Multi-Layer Perceptron). The speech signals used for the purpose of evaluation in this study were taken from the phonemes in Korean digits uttered by six men. The test results show that fuzzy ARTMAP is a little better performance than MLP, when test data and training data is obtained from same speaker. But fuzzy ARTMAP is better performance than MLP, when test data and training data is obtained from different speaker. This result means that fuzzy ARTMAP is more useful to speaker adaptation and speaker-independent speech recognition than MLP.
黃英洙 관동대학교 1997 關大論文集 Vol.25 No.2
A successful speaker normalization mechanism will not only be useful to speaker adaptation but also speaker-independent speech recognition. This paper describes a speaker adaptation technique using neural network and codeword. The speaker adaptation using neural network and codeword is used as a nonlinear mapping function to transform speech data between two speakers. In this paper, one input vector and multiple input vectors are used in transformation. The technique using multiple input vectors makes full use of dynamic information. To show the validaty of this technique, isolated word recognition experiments are carried out using Korean digits. The recognition rate of the adapted recognition system is approximately from 303% to 20% improvement over that of the unadapted system.
황영수,송민석,Michael W. Macon 한국음향학회 2000 韓國音響學會誌 Vol.19 No.6
본 연구는 한국어 분절음 인식을 위한 인식단위 설정에 대한 연구이다. 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식단위 설정과 현대어 발음에 기초한 인식단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였다. 또한 인식단위의 설정에 있어서 독려된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(biphone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다. 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다. In the case of making large vocabulary speech recognition system, it is better to use the segment than the syllable or the word as the recognition mit. In this paper, we study on the proper recognition units for Korean speech recognition. For experiments, we use the speech toolkit of OGI in U.S.A. The result shows that the recognition rate of the case in which the diphthong is established as a single unit is superior to that of the case in which the diphthong is established as two units, i.e. a glide plus a vowel. And also, the recognition rate of the case in which the biphone is used as the recognition unit is better than that of the case in which the mono-phoneme is used.
황영수,김영일,차일환 한국음향학회 1984 韓國音響學會誌 Vol.3 No.1
The objective data and subjective data correlated in order to rate sound quality of loudspeaker system and these data were analyzed by the Factor Analysis and Multi-Dimensioinal Scaling. The dimensions yielded Factor Analysis were interpreted as "Contrast", "Metallic", "Rich", "Present" and their relation to physical variables were explored by studying the positions of loudspeaker systems in the respective dimension. When the subjective similarity degree of loudspeaker systems was compared with the objective similarity degree of loudspeaker systems by Multi-Dimensional Scaling, the similarity degree of sound pressure response in the listening room closely coincided with the subjective similarity degree regardless of sound source. This result implies the necessity of measurements taken not only in an anechoic room but also in a listening room in order to rate sound quality of loudspeaker systems.
한국어 인식을 위한 인식 단위와 학습 데이터 분류 방법에 대한 연구
황영수 한국융합신호처리학회 2003 융합신호처리학회 논문지 (JISPS) Vol.4 No.2
본 연구는 한국어 분절음 인식을 위한 인식 단위 설정과 학습시 학습 데이터 분할 방법에 대한 연구이다 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화와 학습시 학습 데이터 분할 방법에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식 단위 설정과 현대어 발음에 기초한 인식 단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였으며, 학습 데이터 분할 방법에 따른 인식 결과는 손으로 분할한 방법이 자동 분할 방법보다 약 2-3%의 인식 향상을 보였다. 또한 인식 단위의 설정에 있어서 독립된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(bipbone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다. This is the study on recognition units and segmentation of phonemes. In the case of making large vocabulary speech recognition system, it is better to use the segment than the syllable or the word as the recognition unit. In this paper, we study on the proper recognition units and segmentation of phonemes for Korean speech recognition. For experiments, we use the speech toolkit of OGI in U.S.A. The result shows that the recognition rate of the case in which the diphthong is established as a single unit is superior to that of the case in which the diphthong is established as two units, i.e. a glide plus a vowel. And recognizer using manually-aligned training data is a little superior to that using automatically-aligned training data. Also, the recognition rate of the case in which the bipbone is used as the recognition unit is better than that of the case in which the mono-Phoneme is used.