2020년 코로나 대유행 이후 사회는 과도기적인 큰 변화를 맞이하게 되었다. 대외적인 활동이 제재되면서 익숙하고 당연하게 생각해왔던 지극히 일상적인 것들과 낯설고 생소하기만 했던 비...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16633884
서울 : 국민대학교 소프트웨어융합대학원, 2022
학위논문(석사) -- 국민대학교 소프트웨어융합대학원 , 인공지능전공 , 2023. 2
2022
한국어
서울
vii, 51 ; 26 cm
지도교수: 박하명
I804:11014-200000659876
0
상세조회0
다운로드국문 초록 (Abstract)
2020년 코로나 대유행 이후 사회는 과도기적인 큰 변화를 맞이하게 되었다. 대외적인 활동이 제재되면서 익숙하고 당연하게 생각해왔던 지극히 일상적인 것들과 낯설고 생소하기만 했던 비...
2020년 코로나 대유행 이후 사회는 과도기적인 큰 변화를 맞이하게 되었다. 대외적인 활동이 제재되면서 익숙하고 당연하게 생각해왔던 지극히 일상적인 것들과 낯설고 생소하기만 했던 비일상적이었던 것들이 서로 뒤바뀌면서 인간의 생활 패턴이 점차 바뀌어졌다. 바뀐 패턴은 급진적인 기술의 발전을 불러일으키며 불편함을 줄여줄 편의성으로써 상용화가 되기 시작했고, 그 중 인공지능의 많은 분야와 기술들이 주목을 받기 시작했다. 인공지능이라는 단어가 익숙해진 지금, 코로나로 인해 드러난 비대면 서비스들의 한계점과 앞으로 인공지능이 더 나은 방향으로 나아가기 위해 요구되는 사람과의 소통에서 필요한 감정을 여러 신호를 통해 분석하고 학습하는 멀티모달 기술을 이용해 감정인식하는 연구를 본 논문에서 수행하고자 한다.
본 논문에서는 멀티모달 한국어 영상 데이터셋을 이용하여 각각 음성과 텍스트, 얼굴 이미지를 분리하고, 음성은 Mel Spectrogram과 MFCC 알고리즘을 사용하여 특징을 추출하고, 텍스트는 BERT 기반의 한국어가 사전 학습된 KoBERT 모델을 사용하여 특징을 추출한다. 마지막으로 얼굴 이미지는 Amazon Rekognition API를 호출하여 반환된 감정 결과값을 이용한다. 이 세 개의 신호로부터 추출된 값들을 다시 융합하여 최종 감정 추론에 도달하는 연구를 수행한다.
실험 결과, 각 신호 별로 추출된 값에 다른 가중치를 부여함으로 92%의 감정인식률을 확인할 수 있었다.
다국어 초록 (Multilingual Abstract)
After the COVID-19 pandemic in 2020, society faced a transitional change. As external activities have been limited, the human life pattern has gradually changed day by day from familiar and natural to unfamiliar and unusual ones. Accordingly, new tech...
After the COVID-19 pandemic in 2020, society faced a transitional change. As external activities have been limited, the human life pattern has gradually changed day by day from familiar and natural to unfamiliar and unusual ones.
Accordingly, new technologies like artificial intelligence are getting attraction to reduce the inconvenience of the new human life pattern. Now that the word artificial intelligence is familiar, this paper intends to conduct a study on emotion recognition using multimodal technology that analyzes and learns the limitations of non-face-to-face services revealed by COVID-19 and the emotions required for communication with people to move in a better direction.
In this paper, voice, text, and face images are separated using multimodal Korean image datasets, voice is extracted using Mel Spectrogram and MFCC algorithms, and text is extracted using a pre-learned Korean KoBERT model. Finally, the face image uses the returned emotion result value by calling the Amazon Rekognition API. We conduct a study that re-fuses the values extracted from these three signals to reach the final emotion inference.
Our experimental results show that the proposed method achieves 92% of emotional recognition rate with different weight values to the multi-modal signals.
목차 (Table of Contents)