화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망에 멀티태스크 러닝 기법을 적...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A106398081
김주호
(서울시립대학교)
;
허희수
(서울시립대학교 컴퓨터과학부)
;
정지원
(서울시립대학교)
;
심혜진
(서울시립대학교 컴퓨터과학과)
;
김승빈
(서울시립대학교)
;
유하진
(서울시립대학교)
;
Kim, Ju-ho
;
Heo, Hee-Soo
;
Jung, Jee-weon
;
Shim, Hye-jin
;
Kim, Seung-Bin
;
Yu, Ha-Jin
2019
Korean
KCI등재,SCOPUS,ESCI
학술저널
593-600(8쪽)
0
0
상세조회0
다운로드국문 초록 (Abstract)
화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망에 멀티태스크 러닝 기법을 적...
화자 간 음색의 유사성은 화자 인증 시스템의 성능을 하락 시킬 수 있는 요인이다. 본 논문은 화자 인증 시스템의 일반화 성능을 향상시키기 위해, 심층신경망에 멀티태스크 러닝 기법을 적용시켜 발화자의 화자 정보와 나이 정보를 함께 학습 시키는 기법을 제안한다. 멀티태스크 러닝 기법은 은닉층들이 하나의 태스크에 과적합 되지 않도록 하여 심층신경망의 일반화 성능을 향상시킨다고 알려져 있다. 하지만 심층신경망을 멀티태스크 러닝 기법으로 학습시키는 과정에서, 나이 정보에 대한 학습이 효율적으로 수행되지 않는 것을 실험적으로 확인하였다. 이와 같은 현상을 방지하기 위해, 본 논문에서는 심층신경망의 학습 과정 중 화자 식별과 나이 추정 목적 함수의 가중치를 동적으로 변경 하는 기법을 제안한다. 동일 오류율을 기준으로 RSR2015 평가 데이터세트에 대해 화자 인증 성능을 평가한 결과 나이 정보를 활용하지 않은 화자 인증 시스템의 경우 6.91 %, 나이 정보를 활용한 화자 인증 시스템의 경우 6.77 %, 나이 정보를 활용한 화자 인증 시스템에 가중치 변경 기법을 적용한 경우 4.73 %의 오류율을 확인하였다.
다국어 초록 (Multilingual Abstract)
The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information a...
The similarity in tones between speakers can lower the performance of speaker verification. To improve the performance of speaker verification systems, we propose a multi-task learning technique using deep neural network to learn speaker information and age information. Multi-task learning can improve generalization performances, because it helps deep neural networks to prevent hidden layers from overfitting into one task. However, we found in experiments that learning of age information does not work well in the process of learning the deep neural network. In order to improve the learning, we propose a method to dynamically change the objective function weights of speaker identification and age estimation in the learning process. Results show the equal error rate based on RSR2015 evaluation data set, 6.91 % for the speaker verification system without using age information, 6.77 % using age information only, and 4.73 % using age information when weight change technique was applied.
참고문헌 (Reference)
1 D. Snyder, "X-vectors: Robust DNN embeddings for speaker recognition" 1-2, 2018
2 A. Larcher, "Textdependent speaker verification: Classifiers, databases and RSR2015" 60 : 56-77, 2014
3 R. Caruana, "Multitask learning" 28 : 41-75, 1997
4 N. Chen, "Multi-task learning for text-dependent speaker verification" 185-189, 2015
5 K. He, "Identity Mappings in Deep Residual Networks" Springer 1-15, 2016
6 G. Heigold, "End-to-end text-dependent speaker verification" 2-3, 2016
7 A. Kanervisto, "Effects of gender information in text-independent and text-dependent speaker verification" 1-3, 2017
8 K. He, "Deep residual learning for image recognition" 770-778, 2016
9 E. Variani, "Deep neural networks for small footprint text-dependent speaker verification" 1-2, 2014
10 J. W. Jung, "A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result" 1-3, 2018
1 D. Snyder, "X-vectors: Robust DNN embeddings for speaker recognition" 1-2, 2018
2 A. Larcher, "Textdependent speaker verification: Classifiers, databases and RSR2015" 60 : 56-77, 2014
3 R. Caruana, "Multitask learning" 28 : 41-75, 1997
4 N. Chen, "Multi-task learning for text-dependent speaker verification" 185-189, 2015
5 K. He, "Identity Mappings in Deep Residual Networks" Springer 1-15, 2016
6 G. Heigold, "End-to-end text-dependent speaker verification" 2-3, 2016
7 A. Kanervisto, "Effects of gender information in text-independent and text-dependent speaker verification" 1-3, 2017
8 K. He, "Deep residual learning for image recognition" 770-778, 2016
9 E. Variani, "Deep neural networks for small footprint text-dependent speaker verification" 1-2, 2014
10 J. W. Jung, "A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result" 1-3, 2018
파라메트릭 어레이 음원의 전기적 빔 조향 현상 예측을 위한 수치 해석 기법 연구
송수신기가 고정된 천해 수중음향통신 채널 매개변수 해석
비스듬히 입사하는 음장에 대한 유한 길이의 탄성 원통 쉘의 음향 산란
대역폭 제한 조건과 Gram 행렬의 단위행렬로의 사영을 이용한 압축센싱 능동소나 송신파형 설계
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2026 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2020-01-01 | 평가 | 등재학술지 유지 (재인증) | ![]() |
2017-01-01 | 평가 | 등재학술지 유지 (계속평가) | ![]() |
2013-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2010-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2008-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2006-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2004-01-01 | 평가 | 등재학술지 유지 (등재유지) | ![]() |
2001-07-01 | 평가 | 등재학술지 선정 (등재후보2차) | ![]() |
1999-01-01 | 평가 | 등재후보학술지 선정 (신규평가) | ![]() |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.23 | 0.23 | 0.22 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.2 | 0.18 | 0.398 | 0.07 |