RISS 검색 - 학위논문 상세보기

국문 초록 (Abstract)

본 논문에서는 소규모 데이터를 활용해 음악 기반 3D 지휘 스타일 동작을 생성하기 위한 새로운 접근 방법을 제안한다. 오디오를 기반으로 3D 동작을 생성하는 연구는 이전부터 꾸준히 진행되어 왔지만 스피치 제스처나 댄스 동작 생성에 한했다. 본 논문에서는 지휘와 같이 특수한 상황에 대한 3D 동작을 생성하고자 했다. 이는 음악 기반 지휘 동작 생성 분야에서 처음으로 시도되는 연구로, 딥러닝 모델 학습에 필요한 데이터가 충분하지 않다는 한계가 있다. 이에 전문 지휘자의 지휘 영상으로부터 음악과 3D 지휘 동작 데이터를 추출해 1.43시간 분량의 소규모 멀티모달 지휘 데이터셋을 새롭게 구축했다. 제한된 학습 데이터로 인한 모델 성능 저하 문제를 해결하기 위해, 대규모 스피치 데이터셋으로 사전 학습된 음성 기반 제스처 생성 모델을 이용한 전이 학습 방법을 고안하였다. 지휘 동작 생성 모델은 음악과 스피치 음성 간의 특징에 대한 차이가 존재하므로 제스처 생성 모델의 오디오 특징 추출 부분을 지휘에 적합하도록 일부 변경하여 구성하였다.
제안한 방법의 효과를 검증하기 위해 사전 학습, 전이 학습 유무 등 학습 단계별 모델의 지휘 동작 생성 결과를 비교했다. 동작의 다양성, 원본과의 유사성, 음악-동작 간의 연관성 등을 평가했으며, 손목 관절 움직임에 대해서는 인체 관절 가동 범위를 고려해 동작의 자연스러움 비교했다. 또한 실제 사람과 유사한 3D 아바타에 생성된 동작을 매핑해 시각적인 비교를 진행했다. 실험 결과 제안된 전이 학습 방법이 대부분의 측면에서 향상된 성능을 보여주었다. 이는 불충분한 데이터의 학습에 제안된 전이 학습을 적용하는 방식이 효과적임을 시사하며, 향후 유사한 동작 생성 연구에 적용될 수 있는 가능성을 제시한다.

번역하기

본 논문에서는 소규모 데이터를 활용해 음악 기반 3D 지휘 스타일 동작을 생성하기 위한 새로운 접근 방법을 제안한다. 오디오를 기반으로 3D 동작을 생성하는 연구는 이전부터 꾸준히 진행...

다국어 초록 (Multilingual Abstract)

This paper proposes a novel approach to generate music-driven 3D conducting style motions with small-scale data. Although audio-driven 3D motion generation has been consistently studied, it has been conducted to focus on speech gestures or dance motions. This study aims to generate 3D motions for specific situations like conducting. To the best of our knowledge, no study has been conducted on music-driven 3D conducting motion generation. In order to overcome this challenge, I constructed a new small-scale multimodal conducting dataset containing 1.43 hours by extracting music and 3D conducting motion data from professional conductor videos.
I was concerned about degrading the performance of the model due to limited training data, I devised a transfer learning method using a speech-driven gesture generation model pre-trained on a large-scale speech dataset. As music and speech audio features are different, I modified the audio feature extraction part of the gesture generation model to suit conducting on the conducting motion generation model.
To validate the proposed method, I compared the conducting motion generation results of models at different training stages, including pre-trained, with and without transfer learning. I evaluated motion diversity, similarity to the original, and music-motion correlation. For wrist joint movements, I compared human-likeness of generated motions considering human joint range of motion. I also conducted visual comparisons by retargeting generated motions to a realistic 3D avatar.
Experimental results showed that the proposed transfer learning method demonstrated improved performance in most aspects. This suggests that applying the proposed transfer learning approach is effective and available for learning from insufficient data on the study of motion generation.

번역하기

목차 (Table of Contents)

1. 서론 1
1.1 연구 배경 1
1.2 연구 내용 및 목표 4
1.3 논문 구성 6
2. 관련 연구 7

1. 서론 1
1.1 연구 배경 1
1.2 연구 내용 및 목표 4
1.3 논문 구성 6
2. 관련 연구 7
2.1 지휘 동작 7
2.1.1 가상 지휘자 애니메이션 7
2.1.2 지휘 동작 데이터셋 9
2.2 오디오에 의한 동작 생성 11
2.2.1 음성 기반 제스처 생성 11
2.2.2 음악 기반 댄스 동작 생성 13
2.2.3 음악 기반 지휘 동작 생성 13
2.3 전이 학습 15
3. 멀티모달 지휘 데이터셋 16
3.1 데이터 수집 및 취득 방법 16
3.1.1 원본 데이터 수집 17
3.1.2 멀티모달 데이터 취득 방법 18
3.2 지휘 데이터셋 구성 21
4. 음악 기반 3D 지휘 동작 생성 26
4.1 베이스라인 모델 26
4.2 음악 기반 지휘 동작 생성 모델 31
4.2.1 사전 학습 32
4.2.2 음악 특징 추출 33
4.2.3 전이 학습 34
5. 실험 및 결과 37
5.1 실험 설정 37
5.1.1 손실 함수 비교 37
5.1.2 전이 학습 설정 38
5.2 정량정성적 평가 40
5.2.1 동작 품질 및 음악-동작 연관성 40
5.2.2 관절 가동 범위 비교 및 3D 시각화 45
6. 결론 및 향후 연구 61
참고문헌 63
국문초록 66
ABSTRACT 68

상세검색

RISS 보유자료

상세검색

해외전자자료

소규모 데이터를 활용한 전이 학습 기반 3D 지휘 스타일 동작 생성 연구

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료