RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • Improving Robustness of Latent Representation in Deep Neural Networks for Incomplete Sequence Classification and Generation : 불완전한 시퀀스 분류 및 생성을 위한 심층 신경망 잠재 표현의 견고성 향상

        Gwenaelle, Cunha Sergio 경북대학교 대학원 2020 국내박사

        RANK : 2906

        모델 설치 후 불완전한 데이터를 처리하는 것은 현대 언어와 커뮤니케이션이 빠르게 변모하도록 하는 휴대용 기술, 인터넷 및 소셜 네트워크의 광범위한 보급으로 인해 큰 문제가 되었습니다. 언어 및 시청각 영역에서 이 문제에 접근해 입력 시퀀스에서 추출된 잠재 특징 벡터의 품질을 개선합니다. 처음에는 일련의 토큰에서 추출된 잠재 벡터를 개선하는 데 전적으로 초점을 맞추고 이 토큰을 잡음을 포함한 텍스트 분류 작업에 사용합니다. 이를 위해 노이즈가 많은 사용자 생성 텍스트와 노이즈가 많은 ASR 텍스트를 처리할 때 향상된 텍스트 분류를 위해 BERT에서 세 가지 수정 사항을 제시합니다. 첫 번째 접근법은 불완전한 입력으로부터 얻은 인코딩된 트랜스포머 토큰을 재생성하는 데 초점을 맞추고, 두 번째 접근법은 인코딩된 트랜스포머 토큰에서 중요한 특징을 선택하는 데 초점을 맞춥니다. 마지막 접근 방식은 토큰 재구성을위한 첫 번째 모델과 향상된 노이즈 데이터 표현을위한 두 번째 모델의 장점을 결합합니다. 두 개의 잡음을 포함한 데이터셋에 대한 결과는 우리 모델이 모든 환경에서 계산 복잡성을 약간만 증가시키는 것만으로 베이스라인 모델을 능가하는 것을 보여줍니다. 그 다음, 우리는 영상에서 음성으로의 도메인 변환을 수행하여 위 작업을 확장합니다. 여기서는 불완전한 멀티모달 데이터를 오디오가 없는 비디오로 간주하고 사용가능한 시각적 요소를 감성적으로 보완할 수 있는 음악을 생성하는 것을 목표로 합니다. 우리는 두 가지 접근 방식: 하이브리드 퍼지-딥러닝과 순수 딥러닝 방식을 제안합니다. 하이브리드 퍼지-딥러닝 모델은 일련의 시각적 입력에서 감정을 분류하는 퍼지 추론 시스템과 비디오-오디오 특징 도메인 변환을 위한 LSTM-RNN으로 구성됩니다. 순수 딥러닝 모델은 시각적 입력에서 감정 특징 벡터를 추출하기 위한 CNN, 시퀀스 모델링을 위한 RNN 인코더, 시각적 감정에 따른 음악을 생성하는 새로운 conditional SampleRNN으로 구성됩니다. 세 가지 데이터셋에 대한 평가는 우리가 제안한 모델이 인간 평가자가 선호하는 시각적 입력으로부터 음악을 생성할 수 있었고, 이 음악이 베이스라인 모델과 비교해 더 유사한 감정을 불러 일으켰음을 보여줍니다. 우리는 제안된 모델에 대해 베이스라인 모델과의 비교, 여러 데이터셋에 대한 평가, 세부 결과 분석, 토론 및 절제 연구를 포함한 철저한 평가를 수행합니다. 우리는 다양한 작업에서 베이스라인 모델을 개선하고 테스트 중 잡음이 포함되거나 불완전한 데이터를 처리하는 데에 있어 최근 연구에 여전히 개선 여지가 있음을 보여줍니다. 또한 ASR 텍스트 지원 음악 생성을 위해 언어 및 시청각 영역에 이 작업을 융합하는 향후 적용방안에 대해 자세히 설명합니다. Handling incomplete data after a model's deployment has become a big challenge due to the widespread dissemination of portable technology, the internet, and social networks, which caused a rapid transformation of modern language and communication. We approach this issue in the language and audio-visual domains by improving the quality of the hidden latent feature vector extracted from the input sequence. Initially, we focus solely on improving the hidden latent vector extracted from a sequence of tokens and use these tokens for the task of noisy text classification. For that, we propose three different modifications in BERT for improved text classification when faced with noisy user-generated text and noisy ASR text. The first approach focuses on reconstructing encoded transformer tokens obtained from the incomplete input and the second approach focuses on attentively selecting important features from the encoded transformer tokens. The last approach combines the strengths of the first model for token reconstruction and the second model for improved noisy data representation. Results on two noisy datasets show that our model outperforms the baseline models in all settings with only a small increase in computational complexity. We then use the hidden latent vector to perform visual-to-audio domain transformation. Here, we consider incomplete multimodal data as being videos without audio and aim to generate music that is able to emotionally complement the available visual component. We propose two approaches: hybrid fuzzy-deep learning and pure deep learning. The hybrid fuzzy-deep learning model consists of a fuzzy inference system to classify the emotion from a set of visual inputs and an LSTM-RNN for video-to-audio features domain transformation. The pure deep learning model is composed of a CNN for emotional feature vector extraction from the visual input, an RNN encoder for sequence modeling, and a conditional SampleRNN for novel music generation conditioned on visual emotion. Evaluation on three datasets shows that our proposed models were able to generate music from the visual inputs that were preferred by human evaluators and evoking a similar emotion when compared to their baseline models. We perform a thorough evaluation of our proposed models, which include a comparison with baseline models, evaluation on multiple datasets, detailed result analysis, discussions, and ablation studies. We improve on the baseline models in various tasks and show that current works still have margin for improvement when dealing with noisy or incomplete data during testing. We also make a detailed explanation of future applications merging our work in the language and audio-visual domains for ASR text-aided music generation.

      • Emotion classification using physiological data with machine learning: case studies on healthy people and Alzheimer’s disease patients with dementia

        서정렬 아주대학교 2021 국내박사

        RANK : 2895

        In recent years, studies, products, and services that used artificial intelligence and physiological sensor s have been published. One of the trends is classifying the user's context, such as their emotional state, using physiological data. One of the motivations for classifying emotion classification studies is that emotions influence human behaviors, decision making, health, learning efficiency. Many emotion classifications studies have been conducted; however, none of the studies classified boredom using electroencephalogram (EEG) and galvanic skin response (GSR) data. Furthermore, studies that targeted Alzheimer's disease (AD) patients with dementia for classifying their emotions did not exist. In this study, we did a literature review related to emotion classification based on physiological sensors and set healthy people (13 males and 15 females, mean age 23.62) and AD patients with dementia (30 females, mean age 83.9) as target groups. Then, we designed a data collection protocol for each target group and collected physiological data (healthy group: EEG and GSR, and AD patients with dementia group: EEG data) when exposed to video and image stimuli designed to evoke the target emotions. Using the data, I trained emotion classification models with conventional machine learning and deep learning algorithms. As a result, the model trained with multilayer perceptron (MLP) showed 79.98% mean accuracy from 1,000 iterations of five-fold cross-validation. For the model of AD patients with dementia, the ensemble model that consisted of MLP and convolution neural network showed 73.33% accuracy from leave-one-out cross-validation. Additionally, we analyzed the correlations between boredom state and collected data and indicated that healthy people's approach to classifying emotion is possible for AD patients with dementia. These results can be utilizing for affective computing systems and understanding correlations between emotional states and physiological responses.

      • Human Emotion Assessment Using Wearable Sensing and Machine Learning with Anomaly Detection in the Urban Environment

        김태은 이화여자대학교 대학원 2024 국내석사

        RANK : 2894

        인간은 다양한 환경에서 생활하며, 이러한 환경은 인간에게 영향을 미치는 다양한 요소를 포함하고 있다. 환경 요소를 측정하기 위한 지표는 객관적인 요소와 주관적인 요소로 구분된다. 특히, 워커빌리티는 보행자 얼마나 걷기를 원하는지를 나타내는 지표로 워커빌리티 측정은 객관적 및 주관적 요소를 모두 포함하고 있다. 객관적인 요소는 횡단보도, 시설 및 교통과 같이 구성되며 주관적인 요소는 안전감, 즐거움 및 편안함과 같은 인간의 감정을 포함한다. 현재 많은 연구는 객관적인 요소가 주관적인 요소보다 더 쉽게 측정할 수 있기 때문에, 주로 객관적인 요소에 집중하고 있다. 그러나 인간의 감정 상태는 환경 인식에 큰 영향을 미치기 때문에 주관적인 요소를 고려하는 것은 중요하다. 주관적인 요소는 설문조사를 통해 파악할 수 있으나, 매번 설문을 실시하는 것은 사회적 및 경제적 어려움이 존재한다. 또한, 보행과 같이 시간에 따라 변화하는 환경에서 설문조사를 통해 감정을 수집할 때, 순간적인 감정 상태를 충분히 포착하기 어렵다. 최근 스마트 웨어러블 센서의 발전은 인간의 생체 데이터 및 이동 데이터를 수집하고 분석하여 다양한 환경 요소에 대한 인간의 반응 추정을 가능하게 한다. 즉, 센서 데이터를 포함한 스마트 웨어러블 기기가 개발되어 센서 데이터를 기록하고, 이를 통해 스트레스, 인간 감정, 사용자의 위험감 등을 측정할 수 있게 되었다. 또한, 광범위한 센서 데이터를 분석하기 위한 신호 처리 및 분류 기술이 활용되고 있다. 인공지능을 활용한 머신러닝 기술을 통해 대량의 센서 데이터를 처리하고 특정한 패턴을 학습하여 의미 있는 정보를 추출할 수 있다. 그리고, 인간의 감정을 측정하는 데 있어서, 센서 데이터 이상치 분석의 중요성이 증가했다. 이는 비정상적인 상황이 인간의 감정의 갑작스러운 변화와 관련이 있으며, 비정상적인 상황은 센서 데이터에서 이상을 일으키기 때문이다. 그러나 센서 데이터를 활용한 보행자 반응에 대한 최근 연구는 특정 요소에 대한 보행자 스트레스 반응에 중점을 두며, 쾌적/보통/불쾌적과 같은 다양한 감정적 측면을 고려하지 않았다. 따라서, 본 연구는 스마트 웨어러블 기기에 탑재된 센서를 활용하여 실시간으로 인간의 생체 데이터 및 이동 데이터를 수집 및 분석하고, 이러한 데이터가 주관적인 요소인 인간의 감정 상태를 나타낼 수 있는지 조사하는 것을 목적으로 한다. 걷는 데 불편함이 없는 대상자 40명에 대하여 피부전도도, 심박수, 가속도 등의 생체 데이터 및 이동 데이터를 수집하였으며, 시계열 데이터 분석 결과의 검증을 위해 설문조사 기반의 감정 데이터를 수집하였다. 또한, 딥러닝 기반 시계열 비지도 학습 알고리즘인 LSTM 오토인코더 모델을 통해 센서 데이터의 이상치 탐지(Anomaly Detection)를 수행하였다. 센서 데이터와 이상치 탐지 결과를 포함한 데이터셋을 생성하여 머신러닝 기반 보행자 감정 분류를 수행하였다. 그 결과, 배깅트리(Bagging-tree) 알고리즘이 가장 높은 정확도를 나타내었으며, 배깅트리를 활용하여 여러 데이터셋을 대상으로 분석을 수행하였다. 결과적으로 본 연구는 센서 데이터의 감정 분류의 가능성을 제시하며, 다양한 데이터를 활용할수록 분류 모델의 성능이 향상됨을 시사한다. 또한, 이상치 탐지가 보행자의 감정 측정에 영향을 준다는 가능성을 발견하였다. 따라서, 본 연구는 보행 환경에서 스마트 웨어러블 센서와 인공지능을 활용하여 보행자의 감정을 분석하고 측정하는 방법을 제시한다. 이는 경제적 그리고 사회적 어려움 및 보행자의 실시간 감정분석의 어려움 등의 설문조사의 단점을 극복함으로써, 스마트 웨어러블 기기를 사용하여 인간의 주관적인 요소를 측정하는 데 기여할 수 있다. 또한, 보행자의 감정 데이터가 누적되면, 특정 감정을 유발하는 환경 조건을 파악할 가능성이 있다. 이를 기반으로 보행 환경 개선을 위한 전략을 수립할 수 있다. 따라서, 본 연구를 통해 센서 데이터를 활용하여 보행자의 감정 상태를 이해하고, 보행 환경 개선 전략을 개발하는 데 기여할 수 있다. Walkability represents the degree to which pedestrians are willing to walk and the extent to which the environment is favorable for walking. The measurement of walkability involves both objective and subjective variables. Several studies on walkability have focused on objective factors, including crosswalks, facilities, and traffic, as they are easier to measure than subjective factors, including perceived safety, pleasure, and comfort. However, considering the subjective variables is significant, as the environment influences human emotional states. While subjective factors can be assessed through surveys, conducting surveys has time-consuming difficulties and challenges in capturing momentary emotional states. Smart wearable sensors have recently been proposed to explore the potential to measure human emotions by collecting and analyzing pedestrians’ physiological and movement data. Furthermore, signal processing and classification technologies using machine learning and deep learning are being employed to analyze sensor data. Recently, as abnormal situations are associated with rapid changes in human emotions, the importance of anomaly analysis of sensor data has increased. However, despite the recent research efforts, studies on user responses using sensor data have focused on stress responses toward specific barriers rather than considering various emotional dimensions, such as pleasant and unpleasant. Thus, this study investigated whether pedestrian physiological and movement data can represent emotional states by capturing physiological and behavioral responses to the walking environment. Data, including electrodermal activity (EDA), heart rate variability (HRV), and acceleration (ACC), were collected using wearable sensor devices, and survey-based emotional response data was also collected. Initially, key features related to emotions were extracted from human physiological and movement data. Additionally, anomaly detection in sensor data was performed using the Long Short-Term Memory (LSTM) autoencoder model, an unsupervised deep learning algorithm for time series data. A dataset, including sensor data and anomaly detection results, was created for machine learning-based pedestrian emotion classification. The results showed that the bagging-tree algorithm using both physiological, movement, and anomaly data, achieved the highest accuracy of 75.15% compared to other machine learning algorithms. Therefore, the bagging tree algorithm was determined to evaluate the detailed classification performance with different combinations of data: solely use of (a) EDA and (b) HRV, (c) Physiological data (i.e., EDA and HRV data), (d) ACC(Movement data), (e) Physiological and Movement data (i.e., EDA, HRV, and ACC data), and (f) Sensor data and Anomaly Detection. As a result, it has demonstrated the potential for sensor data to measure human emotional states in the walking environment. Furthermore, the overall model performance improved with the integrated use of physiological and movement data when evaluating the classification model through performance indicators. The feasibility of anomaly detection using sensor data to improve the model performance of emotion classification has been demonstrated. The study demonstrated sensor data’s feasibility in classifying pedestrians’ pleasant or unpleasant emotions and discovered the possibility that anomaly detection affects pedestrian emotion measurement. This study provides a means for analyzing sensor data and measuring emotions in the walking environment. In addition, the study enables an understanding of whether people feel pleasant or unpleasant in specific environments. As a result, it can contribute to developing effective strategies for improving the pedestrian environment and promoting physical and mental health.

      • EEG-based emotion analysis and classification for verifying effective electrodes with support vector machine in Korean emotional database

        손귀영 Graduate School, Yonsei University 2020 국내박사

        RANK : 2893

        감정은 인간이 일상생활에서 상호간의 교류에 있어서 필수적인 요소이다. 인공지능의 발전과 더불어 인간과 컴퓨터간의 상호작용에서 감정인식의 필요성이 대두되고 있다. 감정분류에서 많이 사용되는 감정유발요소로는 음성, 얼굴, 행동 그리고 생체신호가 대표적이며, 이들 가운데, 특히 생체신호는 어떠한 조작없이 가장 객관적으로 감정을 표현할 수 있다. 대표적인 생체신호로는 EEG, ECG, SKT, GSR이 많이 활용되며, 그 중에서도 뇌파(EEG)는 다른 생체신호에 비해 접근성이 뛰어날 뿐만 아니라, 높은 시간해상도( high temporal resolution)을 가지고 있어서 지속적으로 발현되는 감정인식에 많이 사용된다. 본 연구에서는 뇌파기반 한국형 감정데이터베이스를 구축하고, 감정분류에 최적화된 특징요소로 전극을 제안하 고자 한다. 감정데이터베이스는 총 6개의 감정(Anger, Excitement, Fear, Happiness, Neutral, Sadness)에 대하여 한국영화클립을 활용하여 총 28명으로부터 뇌파를 기록하였다. 측정된 뇌파는 눈 움직임과 같은 방해파 제거 및 전처리과정을 통하여 알파(8-13Hz)와 베타파(13-30Hz)의 스펙트럴 파워(Spectral Power)를 추출하였다. 감정에 유효한 전극을 선정하기 위하여 반복측정분산분석과 뇌지형도 분석을 진행하였고, 최종적으로 8개의 유효한 전극(AF3-AF4, F3-F4, F7-F8 ,P7-P8)을 선정하였다. 이와 더불어, 뇌지형도 분석을 통하여 전두엽에서 부정적 감정은 오른쪽, 긍정적 감정은 왼쪽에서 가장 높게 활성화되는 것을 확인하였다. 또한, 선정된 전극의 유효성을 검증하기 위한 서포터 벡터 머신(Support Vector Machine, SVM)을 활용한 감정분류를 진행하였다. 감정분류에 최적의 파라메터 값을 선정하기 위하여 모든 참가자의 데이터에 대하여 그리드 서치(Grid search)를 사용하여 하이퍼파라메터(Hyperparameter)를 조정하였으며, C=100, γ= 1/(N(X)*VAR(X))의 하이퍼파라메터의 값으로 5개의 감정(Anger, Excitement, Fear, Happiness, Sadness)에 대하여 94.27\% 의 정확도를 얻었다. 또한, 뇌파신호에 대한 개인간의 편차를 확인하기 위하여 참가자간의 교차실험을 통하여 5개 감정에 대하여 평균 70.89±5.85\% 의 정확도를 얻을 수 있었다. 본 연구를 통하여, 뇌파기반 한국형 감정데이터베이스를 구축하였으며, 이는 향후, 언어학,심리학,공학 등 다양한 분야의 감정분석 및 분류 연구에 기초적인 데이터베이스로 활용이 가능할 것이며, 문화적, 언어적 배경 기반의 타 문화간의 발생될 수 있는 감정분류를 위한 비교연구에도 기초적인 자료로 활용가능성 있을 것이다. 마지막으로,순간적 발현되는 감정이 아닌, 지속적으로 발현되는 감정에 대한 분류를 시도하였고, 이와 더불의 뇌의 영역적, 기능적 활성화를 고려하여 감정분류에 효과적인 전극을 제안하였다는 점에 의의를 두고자 한다. Emotion plays a crucial role in daily life to understand each other under natural communication. Electroencephalography (EEG) based emotion classification has increasingly attracted the researcher’s attention with their objectiveness on emotion representation. Hence, it has widely utilized throughout interdisciplinary studies for emotion classification. The main aim of this study is to introduce the Korean continuous emotional database and investigate brain activity during emotional processing. Moreover, we propose effective emotion-related electrodes for EEG-based emotion classification and verify using classification accuracy with machine learning. This study is recorded EEG signals, collected from 28 subjects, to investigate the patterns of brain activity during the watching movie clips, to be deal with five emotions (anger, excitement, fear, sadness, happiness) and neutral state. In addition, this study analyzed EEG data using spectral power with two behavioral analysis methods to examine emotion-related brain areas and select suitable electrodes. We propose the eight electrodes, namely AF3-AF4, F3-F4, F7-F8, and P7-P8, considering brain locations. Moreover, we found that negative emotions are associated with the right frontal lobe, and positive emotions are related to the left frontal lobe. We also performed on the Support Vector Machine(SVM) to validate the proposed electrodes. We use the grid search to find the optimal hyperparameter. As a result, the classification performance achieved the best accuracy up to 94.27\% with five emotions when the hyperparameter value is C=100, γ=1 / (number of features x variance of data). In conclusion, this study contributed to providing a fundamental Korean EEG emotional database and suggested the effective emotion-related electrodes capable of diverse fields for emotion classification.

      • Stretching out Emotion Research : From Data Collection to Modeling, Analysis, and Application

        유지수 아주대학교 2021 국내석사

        RANK : 2879

        Extensive research has been conducted to develop emotion classification models as a way to effectively detect and analyze emotions; however, there is still room for improvement because of (1) reliability issues of emotion labels, (2) small amount of reliable data, and (3) lack of model application. This paper presents emotion research that addresses these issues. We used a large-scale, emotion-labeled text dataset (924,827 online posts) directly specified by the authors and evaluated its validity through comparisons with other representative emotion datasets. The emotion classification model yielded performance up to 81% accuracy. We applied our model to two popular social networking sites, Reddit and Yelp, and evaluated feasibility and challenges to be considered in the application of emotion modeling. Especially, our study results highlight the ambiguity of the love emotion, and we discuss how to deal with it from theoretical perspectives. Finally, we present a case study of using emotion models to understand consumer needs.

      • (An) Approach of genetic programming for music emotion classification

        방성우 성균관대학교 일반대학원 2011 국내석사

        RANK : 2878

        사용자들은 자신의 취향이나 상황에 적합한 음악을 찾기 위해 다양한 방법을 사용하고 있다. 특히, 음악의 감정은 인간의 감성과 유사하여 음악을 선택하는데 있어 매우 중요한 역할을 하고 있기 때문에 음악의 감정을 분류하는 것은 음악 검색 분야에서 그 비중이 매우 높다고 볼 수 있다. 하지만 음악 감정을 내용 기반으로 분류하는 것은 여전히 어려운 문제로 남아있다. 먼저 음악 감정을 내용 기반으로 분류하기 위해 추출 가능한 속성의 종류가 너무 많아 어떤 속성이 음악 감정을 분류하는데 유효한 속성인지 알 수 없다. 또한 음악 감정의 정량적 모델을 생성하기 위한 방법이 존재하지 않아 음악 감정 분류에 있어 오류가 발생할 가능성이 높다. 본 논문에서는 각 속성의 엔트로피 측정을 통해 분류 정확도를 높일 수 있는 속성들을 선택하고, 이 속성들을 기반으로 arousal과 valence 값을 유전자 프로그래밍을 적용하고 계산하여 분류 정확도를 향상 시키는 새로운 방법을 제시한다. arousal과 valence 값으로 계산된 속성들은 arousal, valence 평면에 전사되고, Support Vector Machine (SVM) 분류 알고리즘을 통해 음악 감정 모델을 생성하게 된다. 본 논문에서 제시한 방법의 유효성을 판단하기 위해 선별된 기존 연구와의 음악 감정 분류 정확도를 비교 분석하였으며, 가장 높은 성능을 보이는 것을 확인하였다. 또한 선별된 음악 데이터를 arousal과 valence 평면에 시각화하여 각 음악 감정 클래스에 같은 감정의 음악들이 잘 모여 있는 것을 확인하였다. Many of users attempt to find suitable music for various situations or tastes. Especially, music emotion has a strong relation to human preference, so this can ba a significant factor to retrieve music that users desire to listen to. However music emotion classification in content-based approach has inherent problems. On of those is that there are so many acoustical signal features. There is no confidence which feature has a strong relation to music emotion. In this thesis, discriminative features are chosen from a set of features with Entropy measure and combine the chosen features into two dimensional feature, arousal and valence, with genetic programming. The combining formula was searched for with genetic programming. Pieces of music is mapped onto points on the arousal and valence plane and build a music emotion classification model with Support Vector Machine (SVM). The classification accuracy shows the effectiveness of this approach, and music samples in each class are well gathered together in the arousal and valence plane through visualization.

      • 뮤직 비디오 콘텐츠의 감정 분류를 위한 딥 러닝 기반 다중 모달 방법

        야그야라즈 전북대학교 일반대학원 2021 국내박사

        RANK : 2877

        감성 컴퓨팅을 통해 지능형 시스템은 외부 표현 (표정, 제스처, 동작 또는 환경 상태) 또는/ 그리고 내부 상태 (EGG 신호를 사용하여 측정)를 기반으로 인간의 감정을 해석 할 수 있습니다. 감성 컴퓨팅은 다양한 도메인에서 연구되지만 뮤직 비디오는 음악 스트리밍 서비스, 개인 엔터테인먼트, 추천 시스템 또는 비즈니스 산업과 같은 다양한 응용 프로그램이 있어도 여전히 손길이 닿지 않은 영역입니다. 현대에 널리 퍼진 오프라인 및 온라인 뮤직 비디오는 인간에게 감정 상태를 전달합니다. 공식 및 사용자가 제작한 뮤직 비디오는 감성 분석의 풍부한 소스입니다. 대부분 사람들은 단일 음악 및 비디오 또는 두 가지를 융합하여 감정 상태를 표현합니다. 따라서 많은 연구에서 음악적 구성 요소와 인간의 감정의 직접적인 상관 관계를 설명했습니다. 이 연구는 음악, 비디오 및 표정에 대해 멀티모달 신경망을 사용하여 뮤직 비디오 감정 인식 문제를 해결합니다. 우리는 뮤직 비디오 감정에 대한 데이터 부족 문제를 해결하기 위해 두 개의 새로운 데이터 세트를 만들고 비지도 및 감독 학습에 사용했습니다. 두 가지 다중 모드 아키텍처; 즉, 분리 가능한 저속 및 3D 뮤직 비디오 네트워크; 감독되지 않은 훈련에 사용 된 다음 감독 된 데이터 세트로 미세 조정됩니다. 분리 가능한 저속 네트워크의 느린 분기에는 낮은 샘플링 속도를 사용하는 스펙트럼 표현이있는 오디오 네트워크 하나와 입력으로 비디오 프레임 수가 적은 비디오 네트워크가 하나 있습니다. 마찬가지로 고속 분기에는 입력 로멜스펙트로 그램이 큰 샘플 속도로 샘플링되고 비디오 네트워크에 입력으로 많은 수의 비디오 프레임이있는 하나의 오디오 네트워크가 포함됩니다. 빠른 네트워크의 입력 차원은 느린 네트워크보다 4 배 더 큽니다. 느린 분기는 공간 정보를 캡처하도록 설계되었으며 빠른 분기는 오디오 및 비디오의 시간 정보를 보존합니다. 각각의 느린 및 빠른 분기에서 오디오 및 비디오 네트워크는 멀티모달 전송 모듈 (MMTM)을 사용하여 정보를 공유합니다. 얼굴 감정 네트워크는 각 잔여 블록의 끝에있는 모듈을 사용하여 분리 가능한 저속 네트워크에 통합됩니다. 분리 가능한 저속 네트워크는 고밀도 잔여 블록 내부에서 분리 가능한 (2 + 1) D 컨볼 루션 레이어를 사용합니다. 3D 뮤직 비디오 네트워크에서 비디오 시퀀스에 대해 3D 컨볼루션을 사용하여 뮤직 비디오의 정서적 감정을 평가합니다. 오디오 네트워크는 위상 정보가있는 로그 멜-스펙트로 그램을 입력으로 사용하는 반면 얼굴 감정 및 비디오 네트워크는 각 뮤직 비디오 샘플에서 가져온 64 개의 비디오 프레임을 사용합니다. 고밀도 잔여 블록은 MMTM을 사용하여 정보를 공유하는 오디오 및 비디오 네트워크 모두에 사용됩니다. 뮤직 비디오 감성에 대한 다양한 멀티 모달 아키텍처로 비교 연구를 수행하고 평가 지표로 정확도, F1 점수 및 ROC-AUC 점수를 사용하여 성능을 측정했습니다. 시스템 능력은 또한 혼동 행렬과 ROC 곡선을 사용하여 시각화되었습니다. 과거 관련 작업과 비교하여 제안 된 시스템은 통계적으로나 의미적으로 더 나은 결과를 수행합니다. 이 실험에서 우리는 3D 컨볼 루션 네트워크가 멀티모달 네트워크 구조에 대한 종단 간 훈련에 상대적으로 복잡하고 무거움을 발견했습니다. 분리 가능한 (2 + 1) D 컨볼루션을 사용하여 매개 변수의 수를 대폭 감소하고 평가 지표와 훈련 가능한 네트워크 매개 변수의 수 측면에서 상대적으로 더 나은 결과를 찾았습니다. Affective computing enables the intelligent system to interpret human emotion based on human external appearance (facial expression, gesture, actions, or environmental status) or/and internal states (measured using EGG signal). Affective computing is studied in diversified domain but music video is still an unexplored area of research even it has a variety of applications in real scenario such as music streaming services, personal entertainment, recommendation system, or business industry. In the modern era, widespread offline and online music video carries huge emotional states of the human being. The official and user-generated music videos are a rich source of emotional analysis. Mostly, people express their affective state using music, song, or a combination of both. Hence, many studies described the direct correlation of musical components with human emotion. This research contributes to music video emotion classification using a multimodal neural network of music, video, and facial expression. We created two novel datasets to address the lack of data problem for music video emotion and used them for unsupervised and supervised training. An ablation study is conducted using several unimodal and multimodal architectures. A slow-fast network with channel and filter separable convolution and 2D or 3D convolution network with/with squeeze and excitation (SE) module are tested in the ablation study. Several unimodal structures are further integrated for robust and optimal multimodal representation. Two multimodal architectures, namely the separable slow-fast and 3D music-video network, are used for unsupervised training and then fine-tuned with a supervised dataset. The slow branch of the separable slow-fast network has an audio network with log Mel spectrogram representation using a low sampling rate and a video network with fewer video frames input. Similarly, the fast branch includes an audio network where the input log Mel spectrogram is sampled at a large sample rate and a video network with many video frames input. The input dimensions of the fast network are four times higher than the slow network. The slow branch is designed to capture the spatial information, while the fast branch preserves the temporal information of both audio and video. In each slow and fast branch, the audio and video network share information using a multimodal transfer module (MMTM). A comparative study is made with various multimodal architecture for music video emotion classification. The system performance was measured using accuracy, F1-score, and ROC-AUC score as evaluation metrics. The system prediction visualized using the confusion matrix and ROC curve. In comparison with past related work, the proposed system performs better results statistically and semantically. The 3D convolution network relatively complex and heavy for end-to-end training on multimodal network structure. We drastically reduced the number of parameters using channel separable (2+1)D convolution and find a relatively better result in terms of evaluation metrics and the number of trainable network parameters.

      • 감정 모델 시각화를 통한 Emoji의 감정 표현 커뮤니케이션 방안 연구 : VAD 감정 모델, Mathematica를 활용하여

        김서영 국민대학교 일반대학원 2023 국내석사

        RANK : 2875

        본 연구는 전 세계적으로 널리 사용되고 있는 비언어적 커뮤니케이션 수단인 Emoji의 한계점을 보완하는 방안에 대한 연구이다. 기존 Emoji는 주로 표정을 기반으로 한 감정 표현에 한정되어 있어 개인의 심리나 감정 상태를 완벽하게 전달하기 불충분하다. 이에, 현대 사회의 디지털 영역에서 감정을 더 다양하게 표현하고 소통의 범위를 확장하기 위한 새로운 감정 표현 방안을 제안하고자 한다. 이를 위해 Emoji의 발전 단계와 감정에 대한 분류 및 감정의 시각화 트렌드에 대한 부분을 이론적으로 고찰하고, 내외부적 요소들의 상호작용과 융합을 통해 감정이 형성되는 과정을 연구하였다. 감정의 시각화를 위해 감정을 Valence (쾌적도), Arousal (발화도), Dominance (우세함)으로 분류하는 VAD 감정 모델 데이터와 강력한 수학 연산 기능 및 함수의 시각화 기능을 갖춘 매스매티카(Mathematica)라는 소프트웨어를 활용하여 연구하였다. 감정 색상의 결정은 I.R.I 색채연구소의 색상 분류 기준과 마크 챈기지(Mark Changizi)의 색상·시각 이론을 연구하고 적용하였다. 감정의 형태는 기초 조형에 대한 시각적 인지 차이와 감정을 일으키는 요인을 분석한 선행 연구를 바탕으로 기하학적 형태를 도출하였다. 이의 결과로 15개의 감정에 대한 3차원 구(Sphere) 형태의 감정 이미지와 Starr Rose 함수 기반 가변적인 형태의 감정 이미지를 매스매티카 프로그램을 활용하여 생성하였다. 가변 형태의 감정 이미지는 발화도와 우세함이 높은 점수일수록 뾰족하고 선명한 형태의 특징이 뚜렷해짐을 확인할 수 있었고, 반면에 발화도와 우세함이 낮은 점수일수록 부드럽고 둥근 형태의 특징이 도드라져 나타났다. 감정의 본질에 더욱 근접한 새로운 시각 언어를 제시하고 기존 Emoji의 한계를 보완하여, 풍부한 감정 표현의 가능성을 탐구하였음에 본 연구의 의의가 부각된다. 아울러 디지털 커뮤니케이션 환경에서 감정 표현이 어떻게 진화할 수 있는지에 대한 후속 연구가 더 활발해지기를 희망한다. This study addresses methods to overcome the limitations of Emoji, a widely used non-verbal communication tool globally. Conventional Emoji is primarily limited to emotion expression based on facial expressions, making it insufficient to convey an individual's psyche or emotional state comprehensively. Accordingly, this study proposes a new approaches to express emotions more diversely and expand the scope of communication in the digital realm of modern society. To achieve this, theoretically examine the developmental stages of Emoji, the classification of emotions, and trends in the visualization of emotions. And also explore the process of emotion formation through the interaction and integration of internal and external factors. For the visualization of emotions, this study utilize the VAD emotion model data for classifying emotions into Valence (pleasantness), Arousal (activation), and Dominance (control), along with the Mathematica software equipped with powerful mathematical operations and visualization functions. The determination of emotion colors is based on the I.R.I Color Research Institute's color classification criteria and Mark Changizi's color-vision theories. The form of emotions is derived from prior research analyzing visual perceptual differences regarding basic shapes and factors triggering emotions. As a result, three-dimensional sphere-shaped emotion images for 15 different emotions and variable-shaped emotion images based on the Starr Rose function were created using the Mathematica program. The variable-shaped emotion images confirm that as scores for Arousal and Dominance increase, features become sharper and more pronounced, while lower scores result in smoother and rounder features. By presenting a new visual language closer to the essence of emotions and addressing the limitations of conventional Emoji, this study explores the potential for rich emotion expression. Additionally, we hope for increased studies in subsequent research on how emotion expression can further evolve in digital communication environments.

      • 음성과 텍스트를 이용한 멀티모달 한국어 감정 인식 연구

        변유철 서강대학교 정보통신대학원 2024 국내석사

        RANK : 2862

        Speech Emotion Recognition (SER) is a crucial technology that enhances interactions in telemarketing and voice assistant chatbots. AI speakers, in particular, can offer diverse services with increased accuracy in speech emotion recognition during daily life conversations. The "Conversation Speech Dataset for Emotion Classification" from AI Hub comprises conversations classified into four major emotions: Angry, Happiness, Neutral, and Sadness. Given the multimodal nature of voice data, a text emotion recognition model can be developed using text data generated through Speech To Text (STT). We propose the LLaMa2 model, comparing it with the existing KoELECTRA. Additionally, a speech emotion recognition model can be created by automatically extracting features from the Mel Frequency Cepstral Coefficients (MFCC) and Mel Spectrogram of audio data, where we propose the HuBERT model, comparing it with the existing Wav2Vec2. To investigate the optimal Fusion method for combining features from both models, we experiment with Early Fusion, Late Fusion, and Hybrid Fusion. Our results show that the unimodal speech emotion recognition model HuBERT and the text emotion recognition model LLaMa2 achieved high accuracy at 0.8139 and 0.8125, respectively. Notably, the HuBERT + LLaMa2 Late Fusion method demonstrated the highest accuracy at 0.8480. In conclusion, using multimodal approaches improved accuracy by 11% compared to unimodal models. 음성 감정 인식(SER)은 텔레마케팅이나 음성 비서 챗봇과 같은 환경에서 더 풍부한 상호작용을 가능케 하는 필수 기술 요소이다. 특히 AI 스피커에서는 일상 대화에서 음성 감정 인식의 정확도가 높아지면 다양한 서비스를 제공할 수 있다. 이에 따라 우리는 일상 생활 대화를 기반으로 음성 감정 인식(SER) 성능을 향상시키기 위한 연구를 진행하고자 한다. AI 허브에서 제공하는 "감정 분류를 위한 대화 음성 데이터셋"은 주요 감정인 분노(Angry), 행복(Happiness), 보통(Neutral), 슬픔(Sadness)을 포함한 총 4가지 감정으로 구분된 일상 대화로 이루어져 있다. 음성 데이터는 텍스트 데이터와 오디오 데이터의 멀티모달 성격을 가지고 있기 때문에 STT(Speech To Text)를 통해 생성된 텍스트 데이터를 활용하여 텍스트 감정 인식 모델을 구축할 수 있다. 이에 따라 KoELECTRA 대신 LLaMa2 모델을 제안합니다. 또한, 오디오 데이터의 MFCC와 Mel Spectrogram에서 피처를 자동 추출하여 음성 감정 인식 모델을 개발할 수 있으며, 이를 위해 Wav2Vec2 대신 HuBERT 모델을 제안한다. 두 모델의 피처를 결합하는 시점에 따라 Early Fusion, Late Fusion, Hybrid Fusion의 세 가지 Fusion 방식을 실험하여 어떤 방식이 우수한 성능을 보이는지 실험하였다. 본 논문에서는 유니모달로 사용된 음성 감정 인식 모델인 HuBERT와 텍스트 감정 인식 모델인 LLaMa2가 각각 0.8139, 0.8125의 높은 정확도를 보였다. 특히, 멀티모달 HuBERT + LLaMa2 Late Fusion 방식이 0.8480의 가장 높은 정확도를 달성했다. 마지막으로, 멀티모달 접근을 통해 유니모달 대비 11%의 성능 향상을 확인하였으며, 한국어 감정 인식 성능을 향상시키는 방안을 제안하고 검증하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼