http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
강병옥(Kang Byung Ok),전형배(Jeon Hyeong Bae),박전규(Park Jeon Gyu) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
본 논문은 녹취 데이터를 대상으로 한 음성 인식을 위해 종단형 음성 인식을 적용하여 수행한 연구 및 실험결과를 기술한다. 녹취 데이터는 콜센터 고객 상담 및 여러 형태의 회의 중 발화된 화자의 음성을 녹음하여 기록한 저장데이터로서, 음성 인식 서비스를 명시적으로 의식하여 발화된 음성에 비해 발화 반복, 간투어 등 다양한 자연어 발화현상, 부정확한 발음 및 빠른 발화 속도 등 음성 인식 성능 저하의 요인이 되는 다양한 특성을 가지고 있다. 이에, 최근 학계와 산업계에서 많은 연구가 수행 되고 있는 종단형 음성인식 기술을 녹취 데이터 인식에 적용하여 기존 LSTM-RNN기반 하이브리드 구조 모델과의 비교 실험을 수행하고 여러 학습 조건에서의 성능 분석 및 개선 사항을 도출하였다.
원어민 및 외국인 화자의 음성인식을 위한 심층 신경망 기반 음향모델링
강병옥(Kang, Byung Ok),권오욱(Kwon, Oh-Wook) 한국음성학회 2017 말소리와 음성과학 Vol.9 No.2
This paper proposes a new method to train Deep Neural Network (DNN)-based acoustic models for speech recognition of native and foreign speakers. The proposed method consists of determining multi-set state clusters with various acoustic properties, training a DNN-based acoustic model, and recognizing speech based on the model. In the proposed method, hidden nodes of DNN are shared, but output nodes are separated to accommodate different acoustic properties for native and foreign speech. In an English speech recognition task for speakers of Korean and English respectively, the proposed method is shown to slightly improve recognition accuracy compared to the conventional multi-condition training method.
희소 데이터 영역 음성 인식을 위한 전이학습 방법 연구
강병옥(Kang Byung Ok),전형배(Jeon Hyeong Bae),박전규(Park Jeon Gyu) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.11
본 논문은 희소 데이터 영역을 대상으로 한 음성 인식을 목적으로 데이터 증강형 전이 항습 방법을 제안하고 관련 실험 결과를 기술한다. 제안된 방법은 대용량 음성수집이 어려운 희소 데이터 영역을 인식 대상으로 하는 도메인에서의 음성 인식을 위해, 상대적으로 수집이 쉬운 대용량의 타 영역 음성 코퍼스를 이용하여 희소 데이터 영역과 비슷한 화자 및 채널/잡음 등의 음향적 특성을 갖는 음성데이터를 증강하고, 증강된 데이터와 대용량 음성 코퍼스를 입력으로 교사-학습 기반 전이학습을 수행한다. 검증을 위해 AMI 코퍼스를 대상으로 실험을 수행하였고, 기존의 교사/학생 기반 전이학습과 비교한 실험 결과 개선된 성능을 확인할 수 있었다.
강병옥 ( Byung-ok Kang ),정호영 ( Ho-young Jung ),이윤근 ( Yun-keun Lee ) 한국정보처리학회 2007 한국정보처리학회 학술대회논문집 Vol.14 No.1
본 논문에서는 환경변화에 대해 강인하게 동작하는 음성인식 시스템을 위해 잡음적응 훈련과 변별학습 방식을 결합한 형태의 환경적응 방식을 제안한다. 다중환경 훈련과 잡음제거방식을 결합한 형태인 잡음적응 훈련 방식은 음성인식을 위한 MCE (Minimum Classification Error)의 목적과는 거리가 있고, 음성인식 시스템이 사용되는 모든 환경을 반영하는 것은 현실적으로 어렵다는 점에서 한계가 있다. 이에 잡음적응 훈련방식으로 훈련된 기본 음향모델을 목적환경에서 수집한 소량의 데이터를 이용한 변별학습을 통해 환경적응 모델로 변환함으로써 이러한 단점을 보완할 수 있는 잡음적응 변별학습을 이용한 훈련방식을 제안한다.
로컬 프레임 속도 변경에 의한 데이터 증강을 이용한 트랜스포머 기반 음성 인식 성능 향상
임성수,강병옥,권오욱,Lim, Seong Su,Kang, Byung Ok,Kwon, Oh-Wook 한국음향학회 2022 韓國音響學會誌 Vol.41 No.2
본 논문은 프레임 속도를 국부적으로 조절하는 데이터 증강을 이용하여 트랜스포머 기반 음성 인식기의 성능을 개선하는 방법을 제안한다. 먼저, 원래의 음성데이터에서 증강할 부분의 시작 시간과 길이를 랜덤으로 선택한다. 그 다음, 선택된 부분의 프레임 속도는 선형보간법을 이용하여 새로운 프레임 속도로 변경된다. 월스트리트 저널 및 LibriSpeech 음성데이터를 이용한 실험결과, 수렴 시간은 베이스라인보다 오래 걸리지만, 인식 정확도는 대부분의 경우에 향상됨을 보여주었다. 성능을 더욱 향상시키기 위하여 변경 부분의 길이 및 속도 등 다양한 매개변수를 최적화하였다. 제안 방법은 월스트리트 저널 및 LibriSpeech 음성 데이터에서 베이스라인과 비교하여 각각 11.8 % 및 14.9 %의 상대적 성능 향상을 보여주는 것으로 나타났다.