RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델

        김준우(June-Woo Kim),정호영(Ho-Young Jung) 한국음성학회 2020 말소리와 음성과학 Vol.12 No.4

        음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다. Speech recognition is one of the areas actively commercialized using deep learning and machine learning techniques. However, the majority of speech recognition systems on the market are developed on data with limited diversity of speakers and tend to perform well on typical adult speakers only. This is because most of the speech recognition models are generally learned using a speech database obtained from adult males and females. This tends to cause problems in recognizing the speech of the elderly, children and people with dialects well. To solve these problems, it may be necessary to retain big database or to collect a data for applying a speaker adaptation. However, this paper proposes that a new end-to-end speech recognition method consists of an acoustic augmented recurrent encoder and a transformer decoder with linguistic prediction. The proposed method can bring about the reliable performance of acoustic and language models in limited data conditions. The proposed method was evaluated to recognize Korean elderly and children speech with limited amount of training data and showed the better performance compared of a conventional method.

      • 음성 인식 정보를 사용한 감정 인식

        김원구 한국지능시스템학회 2008 한국지능시스템학회 학술발표 논문집 Vol.18 No.1

        본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종 감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 선호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

      • KCI등재

        강인한 음성 인식 시스템을 사용한 감정 인식

        김원구(Weon-Goo Kim) 한국지능시스템학회 2008 한국지능시스템학회논문지 Vol.18 No.5

        본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문정에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결함된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다. This paper studied the emotion recognition system combined with robust speech recognition system in order to improve the performance of emotion recognition system. For this purpose, the effect of emotional variation on the speech recognition system and robust feature parameters of speech recognition system were studied using speech database containing various emotions. Final emotion recognition is processed using the input utterance and its emotional model according to the result of speech recognition. In the experiment, robust speech recognition system is HMM based speaker independent word recognizer using RASTA mel-cepstral coefficient and its derivatives and cepstral mean subtraction(CMS) as a signal bias removal Experimental results showed that emotion recognizer combined with speech recognition system showed better performance than emotion recognizer alone.

      • KCI등재후보

        남성과 여성의 음성 특징 비교 및 성별 음성인식에 의한 인식 성능의 향상

        이창영,Lee, Chang-Young 한국전자통신학회 2010 한국전자통신학회 논문지 Vol.5 No.6

        음성인식에서의 인식률 향상을 위한 노력의 일환으로서, 본 논문에서는 성별을 구분하지 않는 일반적 화자독립 음성인식과 성별에 따른 음성인식의 성능을 비교하는 연구를 수행하였다. 실험을 위해 남녀 각 20명의 화자로 하여금 각각 300단어를 발성하게 하고, 그 음성 데이터를 여성/남성/혼성A/혼성B의 네 그룹으로 나누었다. 우선, 성별 음성인식에 대한 근거의 타당성을 파악하기 위하여 음성 신호의 주파수 분석 및 MFCC 특징벡터들의 성별 차이를 조사하였다. 그 결과, 성별 음성인식의 동기를 뒷받침할 정도의 두드러진 성별 차이가 확인되었다. 음성인식을 수행한 결과, 성을 구분하지 않는 일반적인 화자독립의 경우에 비해 성별 음성인식에서의 오류율이 절반 이하로 떨어지는 것으로 나타났다. 이로부터, 성 인식과 성별 음성인식을 계층적으로 수행함으로써 화자독립의 인식률을 높일 수 있을 것으로 사료된다. In an effort to improve the speech recognition rate, we investigated performance comparison between speaker-independent and gender-specific speech recognitions. For this purpose, 20 male and 20 female speakers each pronounced 300 isolated Korean words and the speeches were divided into 4 groups: female, male, and two mixed genders. To examine the validity for the gender-specific speech recognition, Fourier spectrum and MFCC feature vectors averaged over male and female speakers separately were examined. The result showed distinction between the two genders, which supports the motivation for the gender-specific speech recognition. In experiments of speech recognition rate, the error rate for the gender-specific case was shown to be less than50% compared to that of the speaker-independent case. From the obtained results, it might be suggested that hierarchical recognition of gender and speech recognition might yield better performance over the current method of speech recognition.

      • KCI우수등재

        한국어 후설원순모음의 음성 특징과 음성 인식 오류에 관한 연구

        김아름 국어학회 2023 국어학 Vol.- No.105

        후설원순모음은 세대와 성별에 따른 조음 위치 차이가 큰 모음으로, 이들의 이러한 조음 특성으로 인해 음성 인식 상황에서 다수의 후설원순모음 간 오류가 발생한다. 본 연구에서는 약 106시간의 음성 인식 실험 결과를 바탕으로 각 후설원순모음들이 정인식되었을 때의 F1·F2값과 오인식되었을 때의 F1·F2값을 측정하여, 후설원순모음 간의 음성 인식 오류를 유발하는 음성 특성이 무엇인지 분석하였다. 그 결과 음성 인식 모델, 성별, 후설원순모음 종류에 따라 음성 인식 상황에서 주요 인식 단서로 활용되는 음성 특징이 다르다는 점을 확인하였다. 구체적으로 ‘ㅜ’의 인식 오류는 남녀 모두 F1에 의해 발생한다. 이때 F2는 ‘ㅗ’와 ‘ㅜ’의 판별에 유의미한 영향을 미치지 못하는데, 이로 인해 ‘ㅗ’와 ‘ㅜ’가 전후대립을 보이는 세대의 음성 인식에서는 다수의 인식 오류를 야기한다. ‘ㅗ’는 음성 인식 모델에 따라 주요 인식 단서가 차이가 있으며, 남녀 모두 F2가 인식 오류에 영향을 미친다.

      • KCI등재

        초음파 도플러를 이용한 음성 인식

        이기승,Lee, Ki-Seung 한국음향학회 2016 韓國音響學會誌 Vol.35 No.1

        본 논문에서는 음성 신호 대신 초음파 도플러 신호를 이용하여 음성을 인식하는 새로운 음성 인식 방법을 제안하였다. 제안된 방법은 주변 잡음에 대한 강인성과 무 접촉식 센서 사용에 따른 사용자의 불편함 감소를 포함하는 기존의 음성/무음성 인식 방법에 비해 몇 가지 장점을 갖는다. 제안된 방법에서는 40 kHz의 주파수를 갖는 초음파 신호를 입 주변에 방사하여, 반사된 신호를 취득하고, 취득된 신호의 도플러 주파수 변화를 이용하여 음성 인식을 구현하였다. 단일 채널 초음파 신호를 사용하는 기존의 연구와 달리, 다양한 위치에서의 취득된 초음파 신호를 음성 인식에 사용하기 위해 다채널 취득 장치를 고안하였다. PCA(Principal Component Analysis)특징 변수를 사용한 음성 인식에는 좌-우 모델을 갖는 은닉 마코프 모델을 사용하였다. 제안된 방법의 검증을 위해 60개의 한국어 고립어에 대해 6명의 화자로부터 취득된 초음파 도플러 신호를 인식에 사용하였으며, 기존 음성기반 음성인식 기법과 비교할 만한 수준의 인식율을 얻을 수 있었다. 또한 실험 결과 제안된 방법은 기존의 단일 채널 음성 인식 방법과 비교하여 우수한 성능을 나타내었으며, 특히 잡음 환경에서도 90 % 이상의 인식율을 얻을 수 있었다. In this paper, a new automatic speech recognition (ASR) was proposed where ultrasonic doppler signals were used, instead of conventional speech signals. The proposed method has the advantages over the conventional speech/non-speech-based ASR including robustness against acoustic noises and user comfortability associated with usage of the non-contact sensor. In the method proposed herein, 40 kHz ultrasonic signal was radiated toward to the mouth and the reflected ultrasonic signals were then received. Frequency shift caused by the doppler effects was used to implement ASR. The proposed method employed multi-channel ultrasonic signals acquired from the various locations, which is different from the previous method where single channel ultrasonic signal was employed. The PCA(Principal Component Analysis) coefficients were used as the features of ASR in which hidden markov model (HMM) with left-right model was adopted. To verify the feasibility of the proposed ASR, the speech recognition experiment was carried out the 60 Korean isolated words obtained from the six speakers. Moreover, the experiment results showed that the overall word recognition rates were comparable with the conventional speech-based ASR methods and the performance of the proposed method was superior to the conventional signal channel ASR method. Especially, the average recognition rate of 90 % was maintained under the noise environments.

      • KCI우수등재

        한국어 음성 인식 모델의 동음 현상 인식 오류 유형에 대한 검토

        김아름,오규환 국어국문학회 2023 국어국문학 Vol.- No.202

        The purpose of this study is to argue that homonyms are the main factor of failure of Korean speech recognition model and to categorize speech recognition error patterns caused by homonyms, based on the results of speech recognition experiments using CLOVA Speech open API. Recent speech recognition models perform speech recognition based on context. Therefore, there are problems that the recognition rate inevitably decrease significantly in a situation where context information become insufficient or unstable. We argued that various homonyms which are formed by various factors in the sentence were involved in destabilizing context in the speech recognition process. We categorized speech recognition errors caused by homonyms as ‘errors by homonyms’, ‘errors by phonological processes’, ‘errors by liaison’, and ‘errors by phoneme indiscrimination’. Then, we analyzed the speech recognition patterns and error factors of three error types except for ‘error by homonyms’, which do not cause errors in speech recognition situations. 본 연구의 목적은 현재 사용되고 있는 한국어 음성 인식 모델들의 주요 오류 요인 중 하나가 ‘동음 현상’임을 밝히고, CLOVA Speech open API를 이용한 음성 인식 실험 결과를 토대로 동음 현상에 의한 음성 인식 오류 양상을 유형화하는 것이다. 최근의 음성 인식 모델들은 강한 맥락 의존성을 바탕으로 음성 인식을 수행한다. 따라서 맥락 정보가 불충분하거나 불안정해지는 상황에서는 필연적으로 인식률이 낮아지는 문제를 보인다. 본 연구에서는 음성 인식 과정에서 맥락 정보를 불안정하게 만드는 데에 문장 안에서 여러 요인들로 인해 형성되는 다양한 ‘동음 현상’이 관여하는 것으로 판단하였으며, 동음 현상으로 인한 음성 인식 오류를 ‘동음어에 의한 오류’와 ‘음운 과정에 의한 오류’, ‘연음으로 인한 오류’, ‘음소 간 비변별에 의한 오류’ 등으로 나누어 살펴보았다. 그리고 이 중 음성 인식 상황에서 일반적으로 오류를 유발하지 않는 ‘동음어에 의한 오류’를 제외한 세 오류 유형의 음성 인식 양상과 오류 요인을 분석하였다.

      • KCI등재

        음성 인식 오픈 API의 음성 인식 정확도 비교 분석

        최승주,김종배 사단법인 인문사회과학기술융합학회 2017 예술인문사회융합멀티미디어논문지 Vol.7 No.8

        Speech recognition technology is transformation skill using sound sensor such as microphone to transfer the acoustical signal to words or sentence. Speech conversation system using this technology and artificial intelligence is receiving attention as next generation of interface, and it is used in variable areas like smartphone, smart TV, car and so on. Recently, Samsung released ‘Bixby’ which is speech conversation program with artificial intelligence, and a lot of company such as Google and Naver are providing speech recognition open API. In this paper, we select three typical APIs and do comparison analysis of APIs’ features. In addition to that, we do three experiment in mobile for analysis of APIs’ speech recognition accuracy. First, we test number recognition. In second test, we test Korean word recognition. Lastly, we test sentence recognition with mobile instruction sentence. With result, we expect developers can select appropriate speech recognition open API in each situation. 음성인식기술은 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술을 말한다. 이 기술과 인공지능을 결합한 음성 대화 시스템은 차세대 인터페이스로 주목받고 있으며, 스마트폰, 스마트TV, 자동차 등 다양한 분야에서 사용되고 있다. 최근에는 삼성전자에서 인공지능과 음성인식을 결합한 ‘빅스비’를 출시하였으며, Google, Naver 등 다양한 기업들은 음성인식기술을 오픈 API로 제공하고 있다. 본 논문에서는 대표적인 음성 인식 오픈 API 3개를 선택하여 각 특징을 비교 분석한다. 또한 한 3번의 실험을 통해 모바일 환경에서 각 음성인식 API별 인식률을 비교하였다. 첫 번째로 숫자 인식을 실험하였고, 두 번째로는 가나다 한글 인식을 실험하였다. 세 번째 실험에서는 모바일 음성인식 프로그램에서 쓰이는 대표적인 명령 문장을 입력하여 문장 인식 실험을 진행하였다. 이러한 비교실험을 통해 한국어를 지원하는 음성인식 오픈 API의 선택 기준을 제시하여 상황별로 적절한 API를 사용하는 데에 도움을 줄 수 있을 것으로 기대한다.

      • KCI등재

        자동 음성인식 처리 기술의 한국어 파열음 인식 오류에 관한 연구

        김아름 ( Areum Kim ) 영주어문학회 2021 영주어문 Vol.49 No.-

        본고의 목적은 자동 음성인식(Automatic Speech Recognition) 처리 기술의 한국어 파열음 인식 양상을 확인하고, 음절 구조 및 파열음의 음절 내 위치와 선·후행 모음 환경 요소에 따른 유사 음소를 제시하는 것이다. 인간의 음성을 텍스트로 변환시키는 음성인식 처리 기술에서는 음성 신호에서 추출한 음향 특질을 인식의 기본 단위로 사용하는데, 파열음의 경우 산출 과정 중 ‘폐쇄-지속’ 단계에서는 음소를 변별한 만한 음향 특성이 거의 드러나지 않는바, 음성인식에 있어서 많은 오류를 유발하는 요인이 된다. 본고에서는 이와 같은 파열음의 음성인식 오류 양상을 음운론적으로 관찰하여, 어떠한 음운론적 환경에서 인식 오류가 주로 발생하는지, 또 이때 오인식되는 음소는 어떤 특성을 가지는지에 대해 음성인식 환경별 ‘유사 음소’ 개념을 바탕으로 분석하고자 하였다. 이와 더불어 단음절 음성인식 상황에서 파열음의 인식 오류에 영향을 주는 음운 현상을 특정하고 그 양상을 기술하였다. In this paper, I explained how Automatic Speech Recognition (ASR) processing technology recognizes the Korean plosives and presented the similar phonemes according to the syllable structure and various positions of Korean plosives. In ASR, which converts human speech into texts, sound characteristics extracted from sound signals are used as basic units of speech recognition. In the ‘closure’ stage during the plosive production, many errors occurred in ASR due to the weak characteristics of sound. I observed the aspect of ASR errors of Korean plosives and analyzed the circumstances in which ASR errors frequently appeared and the characteristics of phonemes through the concept of ‘similar phoneme’.

      • KCI등재

        한국어에서의 성인과 유아의 음성 인식 비교

        유재권(Jae-Kwon Yoo),이경미(Kyoung-Mi Lee) 한국콘텐츠학회 2011 한국콘텐츠학회논문지 Vol.11 No.5

        현재 한국의 음성 데이터베이스 구축 현황을 살펴보면 유아에 맞춰진 음성 데이터베이스는 구축이 되지 않은 실정이다. 국외 연구를 분석한 결과, 다양한 언어를 기반으로 유아 대상의 음성 데이터베이스가 구축 되어 있다. 이는 성인의 음성과 유아의 음성은 언어학적으로 차이가 있기 때문에 유아는 유아에 맞는 음성 데이터베이스가 필요하다. 한국어에서 성인과 유아의 음성 차이를 알아보기 위해, HMM을 이용하여 유아와 성인의 음성인식을 비교하였다. 유아와 성인의 음성인식 비교는 성별, 나이별, 성도 길이 정규화의 적용 유무에 따라 실험한다. 본 논문에서는 한국어에서 유아의 음성을 유아의 음성인식기로 인식했을 때가 성인의 음성인식기로 인식했을 때 보다 월등히 인식률이 높았으며, 성도 길이 정규화의 적용이 인식률 향상에 도움이 되고 있음을 보여준다. While most Korean speech databases are developed for adults’ speech, not for children’s speech, there are various children’s speech databases based on other languages. Because there are wide differences between children’s and adults’ speech in acoustic and linguistic characteristics, the children’s speech database needs to be developed. In this paper, to find the differences between them in Korean, we built speech recognizers using HMM and tested them according to gender, age, and the presence of VTLN(Vocal Tract Length Normalization). This paper shows the speech recognizer made by children’s speech has a much higher recognition rate than that made by adults’ speech and using VTLN helps to improve the recognition rate in Korean.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼