본 논문에서는 Data Augmentation 기법을 활용하여, 한정된 음원 데이터셋으로도 충분한 데이터 셋의 양을 확보하여, 노래하는 TTS Machine learning Model을 학습시킬 방법을 제안한다. 해당 연구에서는...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A108062027
2022
Korean
TTS ; SVS ; 데이터 증강 ; Data Augmentation
학술저널
173-178(6쪽)
0
상세조회0
다운로드국문 초록 (Abstract)
본 논문에서는 Data Augmentation 기법을 활용하여, 한정된 음원 데이터셋으로도 충분한 데이터 셋의 양을 확보하여, 노래하는 TTS Machine learning Model을 학습시킬 방법을 제안한다. 해당 연구에서는...
본 논문에서는 Data Augmentation 기법을 활용하여, 한정된 음원 데이터셋으로도 충분한 데이터 셋의 양을 확보하여, 노래하는 TTS Machine learning Model을 학습시킬 방법을 제안한다. 해당 연구에서는 노래하는 목소리의 화자를 인식하는 학습모델을 위한 Data Augmentation(Jan Schlüter, 2015) 기법을 참조하여 이를 SVS(Singing Voice Synthesis) 학습 모델에 적용하였다. Pitch Shift, Time stretch, Loudness 등을 적용한 데이터로 모델을 학습시킨 후, 정확도를 평가해 이 기법을 검증할 것이다. 학습 모델은 MLP-Singer가 사용되었고 CSD 공개 데이터셋을 사용한다. 화자 인식 모델에서 보여준 Data Augmentation의 긍정적인 결과를 고려할 때, 음성 합성 분야에서도 성능 향상을 기대할 수 있다. 이러한 기법을 통해, 현재 노래하는 한국어 음성에 대한 공개 데이터셋이 많이 부족한 상황 속에서 기계학습 모델의 성능을 높이기 위한 방안으로 고려될 수 있다. 평가 방법으로는 MOS 설문조사 방식을 사용하며, 불특정 집단을 대상으로 하여 증강된 데이터셋으로 학습시킨 모델과 기존 모델의 비교 평가를 진행한다. 각각의 모델로 두 가지 모델로 각각 5곡의 음원을 생성, 각각의 모델에 대해 1점(매우 부자연스럽다) ~ 5점(매우 자연스럽다) 척도로 음원 품질을 평가한 결과를 수집하였다.
목차 (Table of Contents)
인공지능 스타일 전이를 활용한 영상예술의 스토리텔링에 관한 연구
실시간 강연, 전시, 네트워킹을 포함한 복합 컨퍼런스를 위한 가상공간 디자인
Volumetric Video Capture 를 활용한 몰입형 작품 제작 연구: VR 작품 ‘Guernica, eres tú’ 제작 사례를 중심으로