http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
최범휘(Beom-Hwi Choi),이재준(Jae-Jun Lee),한현택(Hyeon-Taek Han),최연웅(Yeon-Ung Choi),조우성(Woo-seong Cho),이해연(Hae-Yeoun Lee) 한국정보기술학회 2021 Proceedings of KIIT Conference Vol.2021 No.11
사람 음성 활동 감지는 스마트 홈이나 자동차 등 다양한 응용 분야에서 활용될 수 있으며, 딥러닝 기술을 이용한 연구들도 수행되고 있다. 본 논문에서는MobileNet 딥러닝 모델을 이용하여 사운드 세그먼트에 사람음성 활동이 있는지 검출하는 모델을 제안한다. 사운드 세그먼트의 MFCC 특징 추출을 위하여 MFCC 특징을 추출하였고, CNN 기반의 모델들보다 연산 복잡도가 최소화되고 의미있는 특징 데이터를 학습할 수 있는 MobileNet을 도입하여 최적화를 수행하였다. 이를 통하여 95.52% 정확도로 사람 음성 활동 여부를 검출하였다. Voice activity detection of human can be used in various applications such as smart homes and automobiles, and researches using deep learning technology are being conducted. In this paper, we propose a voice activity detection model of human in sound segments using MobileNet. The MFCC features were extracted as features of the sound segments. Also, MobileNet, which has lower computational complexity than CNN-based models and can learn meaningful features, is applied and optimized. As a result, voice activity detection was performed with 95.52% accuracy.
Perceiver 모델을 이용한 사용자 음성 구간 축약
최연웅 ( Yeon-ung Choi ),이재준 ( Jae-jun Lee ),한현택 ( Hyeon-taek Han ),이해연 ( Hae-yeoun Lee ) 한국정보처리학회 2022 한국정보처리학회 학술대회논문집 Vol.29 No.1
최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.