본 논문에서는 소규모 데이터를 활용해 음악 기반 3D 지휘 스타일 동작을 생성하기 위한 새로운 접근 방법을 제안한다. 오디오를 기반으로 3D 동작을 생성하는 연구는 이전부터 꾸준히 진행...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17079583
서울 : 중앙대학교 첨단영상대학원, 2024
학위논문(석사) -- 중앙대학교 첨단영상대학원 , 영상학과 영상공학-메타퓨전-VR/게임/메타버스전공 , 2024. 8
2024
한국어
서울
(A) study on 3D conducting style motion generation using transfer learning with small-scale data
v, 70 p. : 삽화, 도표 ; 26 cm
중앙대학교 논문은 저작권에 의해 보호받습니다
지도교수: 채영호
참고문헌수록
I804:11052-000000242772
0
상세조회0
다운로드국문 초록 (Abstract)
본 논문에서는 소규모 데이터를 활용해 음악 기반 3D 지휘 스타일 동작을 생성하기 위한 새로운 접근 방법을 제안한다. 오디오를 기반으로 3D 동작을 생성하는 연구는 이전부터 꾸준히 진행...
본 논문에서는 소규모 데이터를 활용해 음악 기반 3D 지휘 스타일 동작을 생성하기 위한 새로운 접근 방법을 제안한다. 오디오를 기반으로 3D 동작을 생성하는 연구는 이전부터 꾸준히 진행되어 왔지만 스피치 제스처나 댄스 동작 생성에 한했다. 본 논문에서는 지휘와 같이 특수한 상황에 대한 3D 동작을 생성하고자 했다. 이는 음악 기반 지휘 동작 생성 분야에서 처음으로 시도되는 연구로, 딥러닝 모델 학습에 필요한 데이터가 충분하지 않다는 한계가 있다. 이에 전문 지휘자의 지휘 영상으로부터 음악과 3D 지휘 동작 데이터를 추출해 1.43시간 분량의 소규모 멀티모달 지휘 데이터셋을 새롭게 구축했다. 제한된 학습 데이터로 인한 모델 성능 저하 문제를 해결하기 위해, 대규모 스피치 데이터셋으로 사전 학습된 음성 기반 제스처 생성 모델을 이용한 전이 학습 방법을 고안하였다. 지휘 동작 생성 모델은 음악과 스피치 음성 간의 특징에 대한 차이가 존재하므로 제스처 생성 모델의 오디오 특징 추출 부분을 지휘에 적합하도록 일부 변경하여 구성하였다.
제안한 방법의 효과를 검증하기 위해 사전 학습, 전이 학습 유무 등 학습 단계별 모델의 지휘 동작 생성 결과를 비교했다. 동작의 다양성, 원본과의 유사성, 음악-동작 간의 연관성 등을 평가했으며, 손목 관절 움직임에 대해서는 인체 관절 가동 범위를 고려해 동작의 자연스러움 비교했다. 또한 실제 사람과 유사한 3D 아바타에 생성된 동작을 매핑해 시각적인 비교를 진행했다. 실험 결과 제안된 전이 학습 방법이 대부분의 측면에서 향상된 성능을 보여주었다. 이는 불충분한 데이터의 학습에 제안된 전이 학습을 적용하는 방식이 효과적임을 시사하며, 향후 유사한 동작 생성 연구에 적용될 수 있는 가능성을 제시한다.
다국어 초록 (Multilingual Abstract)
This paper proposes a novel approach to generate music-driven 3D conducting style motions with small-scale data. Although audio-driven 3D motion generation has been consistently studied, it has been conducted to focus on speech gestures or dance motio...
This paper proposes a novel approach to generate music-driven 3D conducting style motions with small-scale data. Although audio-driven 3D motion generation has been consistently studied, it has been conducted to focus on speech gestures or dance motions. This study aims to generate 3D motions for specific situations like conducting. To the best of our knowledge, no study has been conducted on music-driven 3D conducting motion generation. In order to overcome this challenge, I constructed a new small-scale multimodal conducting dataset containing 1.43 hours by extracting music and 3D conducting motion data from professional conductor videos.
I was concerned about degrading the performance of the model due to limited training data, I devised a transfer learning method using a speech-driven gesture generation model pre-trained on a large-scale speech dataset. As music and speech audio features are different, I modified the audio feature extraction part of the gesture generation model to suit conducting on the conducting motion generation model.
To validate the proposed method, I compared the conducting motion generation results of models at different training stages, including pre-trained, with and without transfer learning. I evaluated motion diversity, similarity to the original, and music-motion correlation. For wrist joint movements, I compared human-likeness of generated motions considering human joint range of motion. I also conducted visual comparisons by retargeting generated motions to a realistic 3D avatar.
Experimental results showed that the proposed transfer learning method demonstrated improved performance in most aspects. This suggests that applying the proposed transfer learning approach is effective and available for learning from insufficient data on the study of motion generation.
목차 (Table of Contents)