http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
박희용(Hui-Yong Bak),조우형,김연욱,SIMM Raton Mondol,이상민(Sang-Min LEE) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
본 논문은 Conformer 와 CTC 를 결합한 모델을 기반으로 한국어 음성인식을 제안한다. Conformer 는 광역 정보를 잘 표현하는 Transformer 와 지역정보를 잘 표현하는 CNN 을 결합한 모델이며, CTC 는 사전 정렬되지 않은 음성과 문자열의 대응관계를 정렬하며 학습하는 loss 함수이다. Conformer 와 CTC 를 결합하면 음성과 문자열의 사전 정렬없이 음성의 광역정보와 지역정보를 활용하여 음성인식을 할 수 있는 장점이 있다. 제안한 모델은 로그 스펙트로그램을 입력 받으며 CNN 을 통해 로그 스펙트로그램의 주파수와 시간 해상도를 줄인다. 그 후 Conformer 를 통해 음향 특징을 추출하며 CTC 를 이용하여 학습된다. 제안한 모델의 성능 평가를 위해 한국어 통화 기반 음성 말뭉치 데이터 셋인 ClovaCall-Base를 사용하여 학습과 테스트를 하였으며 테스트 결과 13.1%의 음절 오류율로 기존의 연구보다 우수한 성능을 보였다.