RISS 검색 - 학위논문 상세보기

국문 초록 (Abstract)

2020년 코로나 대유행 이후 사회는 과도기적인 큰 변화를 맞이하게 되었다. 대외적인 활동이 제재되면서 익숙하고 당연하게 생각해왔던 지극히 일상적인 것들과 낯설고 생소하기만 했던 비...

2020년 코로나 대유행 이후 사회는 과도기적인 큰 변화를 맞이하게 되었다. 대외적인 활동이 제재되면서 익숙하고 당연하게 생각해왔던 지극히 일상적인 것들과 낯설고 생소하기만 했던 비일상적이었던 것들이 서로 뒤바뀌면서 인간의 생활 패턴이 점차 바뀌어졌다. 바뀐 패턴은 급진적인 기술의 발전을 불러일으키며 불편함을 줄여줄 편의성으로써 상용화가 되기 시작했고, 그 중 인공지능의 많은 분야와 기술들이 주목을 받기 시작했다. 인공지능이라는 단어가 익숙해진 지금, 코로나로 인해 드러난 비대면 서비스들의 한계점과 앞으로 인공지능이 더 나은 방향으로 나아가기 위해 요구되는 사람과의 소통에서 필요한 감정을 여러 신호를 통해 분석하고 학습하는 멀티모달 기술을 이용해 감정인식하는 연구를 본 논문에서 수행하고자 한다.
본 논문에서는 멀티모달 한국어 영상 데이터셋을 이용하여 각각 음성과 텍스트, 얼굴 이미지를 분리하고, 음성은 Mel Spectrogram과 MFCC 알고리즘을 사용하여 특징을 추출하고, 텍스트는 BERT 기반의 한국어가 사전 학습된 KoBERT 모델을 사용하여 특징을 추출한다. 마지막으로 얼굴 이미지는 Amazon Rekognition API를 호출하여 반환된 감정 결과값을 이용한다. 이 세 개의 신호로부터 추출된 값들을 다시 융합하여 최종 감정 추론에 도달하는 연구를 수행한다.
실험 결과, 각 신호 별로 추출된 값에 다른 가중치를 부여함으로 92%의 감정인식률을 확인할 수 있었다.

다국어 초록 (Multilingual Abstract)

After the COVID-19 pandemic in 2020, society faced a transitional change. As external activities have been limited, the human life pattern has gradually changed day by day from familiar and natural to unfamiliar and unusual ones.
Accordingly, new technologies like artificial intelligence are getting attraction to reduce the inconvenience of the new human life pattern. Now that the word artificial intelligence is familiar, this paper intends to conduct a study on emotion recognition using multimodal technology that analyzes and learns the limitations of non-face-to-face services revealed by COVID-19 and the emotions required for communication with people to move in a better direction.
In this paper, voice, text, and face images are separated using multimodal Korean image datasets, voice is extracted using Mel Spectrogram and MFCC algorithms, and text is extracted using a pre-learned Korean KoBERT model. Finally, the face image uses the returned emotion result value by calling the Amazon Rekognition API. We conduct a study that re-fuses the values extracted from these three signals to reach the final emotion inference.
Our experimental results show that the proposed method achieves 92% of emotional recognition rate with different weight values to the multi-modal signals.

목차 (Table of Contents)

그림 차례 ⅲ
표 차례 ⅴ
국문 요약 ⅵ
제1장 서론 1
제2장 관련 연구 4

그림 차례 ⅲ
표 차례 ⅴ
국문 요약 ⅵ
제1장 서론 1
제2장 관련 연구 4
2.1. 감정인식에 사용되는 모델 4
2.1.1 BERT 4
2.1.2 wav2vec2.0 8
2.2. 멀티모달 감정인식의 선행 연구 15
2.2.1. 음성과 얼굴 이미지를 이용한 멀티모달 15
2.2.2. 음성과 텍스트를 이용한 멀티모달 16
제3장 연구 방법 20
3.1. 데이터셋 20
3.2. 모델 아키텍처 21
3.2.1. 음성 신호 감정인식 모델 22
3.2.1.1 음성 신호의 특징 추출 24
3.2.1.2 음성 신호 학습 모델 26
3.2.2. 텍스트 감정인식 모델 27
3.2.3. 얼굴 이미지 모델 27
3.2.4. 멀티모달 모델 29
제4장 모델 학습 및 결과 30
4.1. 음성 모델 학습 및 결과 30
4.2. 텍스트 모델 학습 및 결과 34
4.3. 이미지 모델 학습 및 결과 38
4.4. 멀티모달 모델 학습 및 결과 39
제5장 결론 43
참고 문헌 46
Abstract 50

상세검색

RISS 보유자료

상세검색

해외전자자료

멀티모달을 이용한 한국어 영상 감정인식 = Korean Video Emotional Recognition Using Multi-modal

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료