RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 음원 데이터 증강을 통한 한국어 SVS(Singing Voice Synthesis) 개발

        김병현(Byeong Hyeon Kim),나철웅(Cheol Woong Na),이승현(Seung Hyun Lee),주희민(Hee Min Ju),정윤서(Yoon seo Chung),구명완(Myoung Wan Koo) 한국HCI학회 2022 한국HCI학회 학술대회 Vol.2022 No.2

        본 논문에서는 Data Augmentation 기법을 활용하여, 한정된 음원 데이터셋으로도 충분한 데이터 셋의 양을 확보하여, 노래하는 TTS Machine learning Model을 학습시킬 방법을 제안한다. 해당 연구에서는 노래하는 목소리의 화자를 인식하는 학습모델을 위한 Data Augmentation(Jan Schlüter, 2015) 기법을 참조하여 이를 SVS(Singing Voice Synthesis) 학습 모델에 적용하였다. Pitch Shift, Time stretch, Loudness 등을 적용한 데이터로 모델을 학습시킨 후, 정확도를 평가해 이 기법을 검증할 것이다. 학습 모델은 MLP-Singer가 사용되었고 CSD 공개 데이터셋을 사용한다. 화자 인식 모델에서 보여준 Data Augmentation의 긍정적인 결과를 고려할 때, 음성 합성 분야에서도 성능 향상을 기대할 수 있다. 이러한 기법을 통해, 현재 노래하는 한국어 음성에 대한 공개 데이터셋이 많이 부족한 상황 속에서 기계학습 모델의 성능을 높이기 위한 방안으로 고려될 수 있다. 평가 방법으로는 MOS 설문조사 방식을 사용하며, 불특정 집단을 대상으로 하여 증강된 데이터셋으로 학습시킨 모델과 기존 모델의 비교 평가를 진행한다. 각각의 모델로 두 가지 모델로 각각 5곡의 음원을 생성, 각각의 모델에 대해 1점(매우 부자연스럽다) ~ 5점(매우 자연스럽다) 척도로 음원 품질을 평가한 결과를 수집하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼