RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기
      • Real-time Multimodal Emotion Recognition Based on Multithreaded Weighted Average Fusion

        Udurume, Miracle 금오공과대학교 대학원 2023 국내석사

        RANK : 2943

        The ability to recognize emotions is a necessary part of full human-machine interaction. The difficulties with emotion recognition can be seen since different emotions can be expressed in various ways, including through text, music, images, bodily signals, etc. Recent advancement in the field shows that the utilization of multimodalities such as voice, speech, and EEG signals, leads to better results compared to the use of unimodality. The previous study investigated the use of multimodality for precise emotion predictions, however, limited studies have been conducted on real-time implementation due to the challenges obtained in simultaneously executing emotion recognition. This thesis proposes a multithreaded weighted average fusion-based real-time multimodal emotion recognition. The implementation of multimodalities for continuous synchronization is made possible by a multithreaded system. Prior to permitting the use of the multithreaded system for multimodal emotion identification, real-time emotion recognition for unimodality is conducted first. For the multithreaded system to display the predicted result with the best level of accuracy, a weighted average is also applied. The results of the implementation demonstrate that the proposed model was successful in recognizing and predicting the user's emotion in real-time and that both unimodal and multimodal emotion detection accuracy was improved.

      • End-to-end multimodal fusion-conformerBERT model for emotion recognition

        이상현 Graduate School, Korea University 2022 국내박사

        RANK : 2943

        Emotion recognition is a communication method that helps understand humans and build empathy and intimacy. An intuitive method to achieve natural, intelligent human-computer interaction is the intellectual ability of machines to understand and empathize with human emotional states. However, the emotional state of the speaker is very complex and changes dynamically depending on contextual language expression or nonverbal contexts such as speech and facial expressions. Although most previous studies performed emotion recognition using a unimodal, it is still difficult to understand human emotions. This dissertation aims to improve the performance of emotion recognition through multimodal fusion to integrate all audio, visual and text input for human-computer interaction. Before describing the proposed method, previously studied approaches to emotion recognition and research issues are reviewed. Then, the nonverbal audio and visual build a unimodal by comparing handcraft features and deep learning features. Nonverbal expressions are important clues to understanding emotions, and these sounds and facial expressions contain more detailed information than abstract words. Therefore, extracting differentiated audio and visual features to improve multimodal performance is one of the main tasks of emotion recognition research. This dissertation conducts comparative experiments by selecting handcraft features and deep learning features used in previous studies. Convolution-augmented Transformer (Conformer) encoder allows audio and visual unimodal to efficiently capture both local feature and global feature contextual information, which aids in emotion recognition. Next, a novel end-to-end multimodal method for emotion recognition is proposed. Understanding complex human emotions requires modeling fusion approaches for intra-modal interactions across text, visual and audio modalities. However, each modality contains positive and negative information. For example, in a video, there are frames in which emotion is not prominent. Negative information corresponds to noise between each modality, and such information should be blocked. This dissertation proposes a Positive Sample Filter Fusion for Cross-modal (PSF2C) module to construct all pairwise similarity maps between each modality and to obtain paired features with high similarity. In addition, the proposed model has a Temporal Weight Fusion (TWF) module to give temporal weights to better utilize temporal correlations. Especially, text modality effectively distills knowledge using pre-trained Bidirectional Encoder Representation from Transformer (BERT) with self-supervised learning. Ablation analysis of the model proposed in this dissertation shows that audio and visual components contribute significantly to the recognition results than text using a single BERT. In addition, the performance shows that the fusion process of the PSF2C module that aggregates positive information and the TWF module that assigns time weights is effective. These positive modalities of audio, visual, and text suggest that they contain highly complementary information for sentiment analysis. The method in this dissertation achieves state-of-the-art performance on CMU Multimodal Opinion Sentiment Intensity (CMU-MOSI) and Interactive Emotional Dyadic Motion Capture (IEMOCAP) datasets. 감정 인식은 인간을 이해하고 공감과 친밀감을 형성하는 데 도움이 되는 의사소통 방법이다. 로봇은 자연스러운 인간의 감정 상태를 이해하기 위해 human-to-machine 상호작용에 대한 지능적인 직관 능력을 습득해야 한다. 그러나, 문맥적 언어 표현과 비언어적 표현에 따라 동적 변화로 인해 화자의 감정 상태는 매우 복잡하다. 대부분 기존 감정 인식 연구는 단일 modality만을 고려했기 때문에 다차원의 인간의 감정을 이해하는 것은 여전히 어려운 일이다. 본 논문은 감정 인식을 향상시키기 위해 오디오, 시각, 텍스트를 적용하여 multimodal 융합 시스템 구현을 목표로 한다. 또한, multimodal 성능을 향상시키기 위해 차별화된 시청각 특징을 추출하는 것은 감정 인식 연구의 주요 과제 중 하나이며 비언어적 표현인 시청각 신호는 감정을 이해하는 데 중요한 단서이다. 추가적으로, 시청각 정보는 단어 조합으로 구성된 텍스트 정보 보다 더 자세한 정보를 담고 있다. 따라서, 효과적인 감정 인식 비언어적 특징을 추출하기 위해 먼저 시청각의 대표적인 handcraft 특징과 deep learning 특징을 비교 실험을 진행한다. 특징 비교 실험은 글로벌 특징과 로컬 특징을 캡처할 수 있는 Convolution-augmented Transformer (Conformer) 인코더를 제안하여 다른 시퀀스 모델인 Recurrent Neural Networks (RNNs)과 Transformer로 비교 분석한다. 마지막으로, 본 논문에서는 Conformer 모듈에서 추출한 시청각 표현과 Bidirectional Encoder Representation from Transformer (BERT) 모델의 텍스트 표현을 결합한 End-to-End 기반의 새로운 Fusion-ConformerBERT를 제안한다. 또한, 각 modality의 representation 정보는 훈련에 영향을 미치는 프레임과 특징 정보가 존재한다. 이때, 프레임에서 강인한 특징은 positive 정보, 그렇지 않은 약한 특징은 negative 정보로 가정한다. 이러한 negative 정보는 감정 인식 훈련 간의 노이즈에 해당하며 negative 영향을 가진 정보는 차단해야 한다. 따라서, Fusion-ConformerBERT는 Positive Sample Filter Fusion for Cross-modal (PSF2C) 모듈을 제안하여 각 modality 간의 모든 쌍 similarity map을 구성하고 유사성이 낮은 정보인 negative는 차단하고 높은 쌍의 특징인 positive 정보를 필터링한다. 또한, Temporal Weight Fusion (TWF) 모듈을 제안하여 시간적 상관관계에 따른 시간 가중치를 부여한다. Fusion-ConformerBERT에 제안된 텍스트 모델은 Self-supervised learning으로 사전 훈련된 BERT 모델을 사용함으로써 소규모 감정 데이터에 대한 overfitting 문제를 해결한다. 추가적으로, 본 논문의 다양한 ablation 분석을 진행하며 modality 간의 융합에 대한 영향을 비교한다. 나아가, 제안된 Fusion-ConformerBERT에서 positive 정보를 집계하는 PSF2C와 시간 가중치를 부여하는 TWF 모듈의 융합 프로세스가 효과적인 것으로 성능을 보여준다. 제안된 모델에서 오디오, 시각적, 텍스트의 이러한 긍정적인 modality은 감성 분석을 위한 매우 보완적인 정보를 포함하고 있음을 시사한다. 실험은 CMU Multimodal Opinion Sentiment Intensity (CMU-MOSI)와 Interactive Emotional Dyadic Motion Capture (IMEOCAP) 데이터 셋을 사용하며 제안된 Fusion-ConformerBERT은 실험에서 최신 의 성능을 달성한다.

      • Emotion recognition using deep learning with STFT feature-combined image of ocular signals

        이희재 가톨릭대학교 대학원 2018 국내박사

        RANK : 2943

        최근 사용자의 요구를 이해하기 위해 인간-컴퓨터 상호작용 (HCI) 분야에서 다양한 연구가 수행되고 있다. HCI의 대표적인 기술 중 하나는 사용자 감정 인식이다. 감정의 중요성이 증대됨에 따라, 사용자의 감정을 인식하기 위해 얼굴 표정, 제스처, 음성신호, 생리신호, 안구특징 및 멀티 모달리티 (Multi-Modality) 신호를 특징으로 사용하는 방법들이 제안되고 있다. 특히, 안구 특징은 사용자가 의도적으로 제어할 수 없으며 컴퓨터가 무의식적인 특징들을 인식할 수 있기 때문에 감정인식에 적합하다. 또한 다양한 분야에 적용될 것으로 기대되는 가상현실과 증강현실을 위해 안구 특징에 기반한 감정인식 기술이 연구되어야 한다. 합성곱 신경망 (CNN)과 재귀 신경망 (RNN)과 같은 심층 학습 (Deep learning) 기술들이 다양한 분야에서 성공하고 있으며, 다양한 모달리티들을 이용하는 감정인식 연구에 적용되고 있다. 그러나 다른 모달리티들과 달리, 안구 특징만을 사용하는 심층 학습기반의 감정인식 연구는 매우 부족하다. 본 학위논문에서는 시간정보와 동공 크기와 눈 움직임 신호와 같은 안구 특징들만을 이용한 심층 학습 기반의 감정인식 방법을 제안한다. 그 과정은 다음과 같다. 먼저, 눈 깜빡임 또는 기술적인 결함으로 인해 발생되는 눈 크기 및 눈 움직임 신호들의 데이터 미획득 구간을 채우기 위한 보간을 수행한다. 그 후 데이터의 길이와 범위를 일치시키기 위해, 신호의 시간과 각 피실험자의 신호들에 대해 정규화를 수행한다. 다음으로 동공 크기 및 눈 움직임 신호들의 시간과 주파수 정보를 분석하기 위해 Short-Time Fourier Transform (STFT) 특징들을 추출하고, 그 특징들을 결합하여 STFT 특징 결합 영상이라 불리우는 단일 이미지를 생성한다. 마지막으로, valence-arousal 인식을 수행하기 위해, STFT 특징 결합 영상에 적합한 심층 학습 모델을 생성한 후 leave-one-out cross validation (LOOCV) 방법을 이용하여 제안하는 방법의 성능을 평가한다. 대부분의 연구에서, 안구 특징은 다른 모달리티 기반의 감정인식 성능을 향상시키기 위한 보조정보로만 사용하고 있다. 이는 안구 특징이 자극에 민감하고 수동적인 특징 추출방법으로 양질의 특징을 추출하기 어려운 많은 이상치 (Outlier)들을 포함하기 때문이다. 그러나 제안하는 방법의 분류 정확도는 Soleymani [53]가 제안한 결정 수준 융합 (DLF)와 서포트 벡터 머신 (SVM)을 이용한 방법보다 valence와 arousal 감정에 대해 각각 23.6%, 9.8% 향상된 분류 정확도를 달성하였다. 실험결과는 제안하는 방법의 효과성을 입증하였고, CNN 모델이 다른 모달리티 기반의 감정인식 방법뿐만 아니라 안구 특징 기반 감정인식에도 효과적이며, 눈 움직임 정보가 valence 감정 인식에도 효과적임을 보였다. Recently, various studies in the field of human–computer interaction (HCI) have been conducted to understand a user's needs. One of the representative technologies of HCI is user emotion recognition. As the importance of emotions increases, in order to recognize a user's emotion, methods that use facial expressions, gestures, speech signals, physiological signals, ocular features, and multi-modal signals as features, have been proposed. In particular, ocular features are suitable for emotion recognition because these features cannot be intentionally controlled by the user and a computer can recognize unconscious characteristics. In addition, emotion recognition technologies based on ocular features should be studied for virtual reality and augmented reality, which are expected to be applied in various fields. Deep learning technologies such as convolutional neural networks (CNN) and recurrent neural networks (RNN) have been widely successful in various fields and are being applied to emotion recognition studies along with diverse modalities. However, unlike other modalities, very few emotion recognition studies based on deep learning that uses only ocular features are proposed. In this dissertation, I propose a deep learning-based emotion recognition method using ocular features such as pupil-size and eye-movement signals, which include time information and information on various ocular features. The process is as follows: first, interpolation is performed to fill the missing data section of the pupil-size and eye-movement signals caused by blinking or technical problems. Then, to match the length and range of the data, normalization is performed on the signal duration and each subject's signal. Then, to analyze the time and frequency information of the pupil-size and eye-movement signals, short-time fourier transform (STFT) features are extracted and a single image, called the STFT feature-combined image, is generated by combining the features. Finally, to perform valence-arousal recognition, the performance of the proposed method is evaluated using the leave-one-out cross validation (LOOCV) method after creating a deep learning model suitable for the STFT feature-combined image. In most studies, ocular features is used as an assistive information to improve the performance of other modalities. This is because eye features are sensitive to stimuli and contain many outliers, which makes it difficult to extract good-quality features with passive feature-extraction methods. However, the classification accuracy of the proposed method achieved the highest classification accuracy 23.6% and 9.8% higher than decision level fusion (DLF) with support vector machine (SVM) which proposed by Soleymani [53] in valence-arousal recognition, respectively. The experimental results demonstrate the effectiveness of the proposed method, and show that CNN model is not only effective for emotion recognition methods based on other modalities but also effective for ocular feature-based emotion recognition and the eye-movement information is effective in Valence emotion recognition.

      • Emotion and intention recognition using facial images and its application to ADAS

        Lee, Hyeongjung Sungkyunkwan university 2018 국내석사

        RANK : 2943

        본 논문에서는 얼굴 영상에서 생체신호 및 다양한 정보를 추출하여 감정 인식을 수행하고 인식을 하고 행동 영상을 촬영하여 행동인식을 한 뒤 이 둘을 결합하여 최종적으로 사용자의 의도를 인식하는 방법에 대해 연구한다. 기존에 사용자의 의도를 분석하는 연구는 긍정, 부정 감정에 대한 스코어를 제시하지 못했으며 대부분 하나 또는 두 감정을 사용하여 긍정, 부정을 분류하였고 설문지를 통해서만 그들의 감정을 분석하였다. 따라서 본 연구는 의도에 가장 영향을 끼치는 요소들을 분석하여 감정과 행동 두 가지를 선정하였고 이를 의도 인식에 활용하였다. 기존 연구에서 졸음이나 시선인식으로 운전자의 의도를 파악한 것과 다르게 감정과 행동을 인식 및 결합하여 운전자의 의도를 파악할 수 있게 한다. 7감정을 사용하여 긍정, 부정, 중립의 감정을 인식하고 행동 인식과 더불어 사용자의 의도를 인식했으며 이를 자율 주행 자동차에 적용하여 의도 인식 시스템을 제안 및 개발하였다. 본 논문에서는 얼굴 영상에서 7감정을 인식하고, 행동 영상에서 행동을 인식하 여 의도 인식 방법을 제안하였고 이를 자율주행 차량 환경에 적용하였다. In this paper, we study the method of recognizing user's intention by combining emotional recognition and behavior recognition. The previous studies that analyzed the intention of the users did not provide a score indicating the degree of positive and negative feelings and additional things. Mostly, one or two feelings were used to classify positive and negative emotion and just using questionnaires to recognized users intention. Therefore, this study analyzed the factors that have the greatest effect on intention and we selected two factors, emotion and behavior. In existed study, driver’s intention was recognized by drowsiness or gaze recognition however, in this study it can be carried out by combining emotion and behavior recognition. In this paper, we implemented an intention recognition system by recognizing 7 emotions using face image and recognizing driver’s behaviors then applied it to autonomous vehicle environment.

      • Music emotion recognition algorithm using themes

        이태헌 Graduate School, Yonsei University 2024 국내석사

        RANK : 2942

        Music Emotion Recognition(MER) 연구 분야는 오래 연구되어 왔음에도 현재까지 낮은 정확도를 보여주고 있다. 음악 구조의 복잡성과 느껴지는 감정의 주관성으로 인해 음악에서 감정을 인식하는 것은 어려운 문제이다. 본 논문에서는 Music Emotion Recognition(MER) 분야의 지속적인 도전과제에 대해, 음악 테마를 활용한 새로운 접근 방법을 제안한다. MER 연구는 음악의 복잡한 구조와 감정 인식의 주관성으로 인해 낮은 정확도의 문제에 직면해왔다. 이 연구는 음악의 테마, 즉 음악에서 전달하고자 하는 주제와 분위기, 그리고 주요한 멜로디의 반복과 변형을 탐지하여 MER의 정확도를 향상시키고자 한다. 연구에서는 멜로디와 관련된 음악적 특성들을 Self-Similarity Matrix(SSM)에 기반하여 분석하고, 이를 ResNet과 Bi-Directional Gated Recurrent Unit(Bi-GRU)을 결합한 모델의 입력으로 사용한다. 본 논문은 또한 MER의 성능을 강화하기 위해 CNN-RNN 모델과 멀티모달 네트워크의 적용을 탐구한다. 이러한 방법론을 통해, MER에서 음악 테마의 중요성과 효과성을 검증하고, MER의 정확도 향상을 위한 새로운 방법론을 제시한다. 이 연구는 널리 사용되는 공개 데이터셋인 Database for Emotional Analysis of Music(DEAM)을 활용하여 진행되었으며, valence RMSE 0.084, arousal RMSE 0.064로 나타나, 음악 테마 활용의 유효성을 입증한다. 이를 통해, MER 분야에서 음악 테마의 활용이 감정 인식의 정확도를 개선할 수 있는 유망한 방법임을 시사한다. Despite longstanding research in the field of Music Emotion Recognition (MER), it continues to exhibit low accuracy due to the complexity of music structure and the subjectivity of perceived emotions. This paper proposes a novel approach to address the persistent challenges in MER by utilizing music themes. MER has faced issues of low accuracy due to the intricate structure of music and the subjective nature of emotion recognition. This study aims to improve the accuracy of MER by detecting music themes, which include the intended themes, mood, and key repetitive and transformative melodies in music. The research analyzes music features related to melody based on the Self-Similarity Matrix (SSM) and utilizes them as inputs for a model combining ResNet and Bi-Directional Gated Recurrent Unit (Bi-GRU). Additionally, this paper explores the application of CNN-RNN models and multi-modal networks to enhance the performance of MER. Through these methodologies, the importance and effectiveness of music themes in MER are validated, and a new approach for improving the accuracy of MER is presented. Utilizing the widely-used public dataset, the Database for Emotional Analysis of Music (DEAM), the study demonstrates the effectiveness of using music themes, evidenced by the valence RMSE of 0.084 and arousal RMSE of 0.064. These results suggest that the utilization of music themes in MER is a promising method for improving the accuracy of emotion recognition (MER) regression problem.

      • Design of a school bullying detection scheme based on action and audio emotion recognition

        Tan, Haiqiu Sungkyunkwan university 2021 국내석사

        RANK : 2940

        School bullying is widely recognized as a one of the most serious problems among teenagers, which affects teenagers both in mentality and physique. Because of school bullying, thousands of teenagers are afraid to go to school every day, so it is of great importance to find a preventative measure to prevent or reduce the incidence of school bullying. This paper proposed a school bullying detection method based on action recognition and speech emotion recognition. This paper used movement sensor, to specific, accelerometer and gyroscope on Arduino nano 33 BLE Sense, to gather data for action recognition and used a micro recorder for recording audio samples. As for speech emotion recognition, this paper extracted pitch and its 5 statistical movements, intensity, Mel-Scale Frequency Cepstral Coefficients (MFCC) and its 1st and 2nd derivatives. As for action recognition, this paper extracted 9 features movement features, 5 from accelerometer and 4 from gyroscope. A KNN is trained to distinguish bullying action from normal action and a combination of random forest and KNN are trained to recognize audio emotions. Validation results show that the combined audio emotion recognition and action recognition to generate a combination result outperforms either of them only, achieving an accuracy of 91%. Finally, in order to deal with the situations, where bullying actions and bullying emotions do not occur at the same time, this paper proposed a new detection method based on action recognition and audio emotion recognition. 학교 폭력 사태는 청소년들 사이의 가장 심각한 문제로 인식되어 청소년들의 심신 건강에 심각한 영향을 끼친다. 학교폭력 때문에 매일 수천 명의 청소년들이 등교를 두려워하고 있어 학교폭력 발생을 예방하거나 줄일 수 있는 예방책을 찾는 것이 매우 중요하다. 본 논문은 행동 인식과 음성 감정 인식을 기반으로 한 학교 폭력 탐지 방법을 제안했다. 본 논문은 아두이노 나노 33 BLE Sense의 특정 가속도계 및 자이로스코프에 동작 인식을 위한 데이터를 수집하기 위해 동작 센서를 사용하고 오디오 샘플 녹음을 위해 마이크로 레코더를 사용했다. 음성 감정 인식의 경우, 본 논문은 피치와 5개의 통계적 특징, 음성강도, MFCC(Mel-Scale Frequency Cepstral Coefficients) 및 1, 2차 도함수를 추출했다. 행동 인식에 대해서는 본 논문에서는 가속도계에서 5개, 자이로스코프에서 4개 등 9개의 움직임 특징을 추출하였다. KNN은 학교 폭력과 정상적인 행동을 구별하도록 훈련되고 랜덤 포레스트와 KNN의 조합은 오디오 감정을 인식하도록 훈련된다. 검증 결과는 조합 결과를 생성하기 위한 결합된 오디오 감정 인식과 행동 인식은 둘 중 하나만을 능가하여 91%의 정확도를 달성한다는 것을 보여준다. 끝으로 학교 폭력 행동과 학교 폭력 감정이 동시에 일어나지 않는 상황을 다루기 위해 본지는 행동 인식과 음성 감정 인식을 바탕으로 한 새로운 탐지 방법을 제안했다.

      • A Study on the Interaction between Human and Smart Devices based on Emotion Recognition

        이종식 성균관대학교 일반대학원 2014 국내박사

        RANK : 2940

        In this study we focus on the effect of the interaction between humans and device when emotion recognition smart device is used. In terms of user centered devices, we propose that emotion based smart device is the most effective device in interacting with human compared to other passive input devices. Forty participants watched Smart TV with three different user interfaces, which are remote controller, gesture recognition, voice recognition system and emotional recognition system. When they used the TV with the remote controller and voice recognition system, gesture recognition, they were given interesting and sad contents and were to choose any contents they want to see within a limited time. On the other hand, with emotion recognition system, Fraunhofer IIS SHORE™ demo software, participants’ facial expression was automatically detected and they were provided with contents according to their emotions. This research offers a new concept that emotion-based smart device that can interact with humans will be the most effective user interface in HCI. The study will discuss how people feel and how Smart TV will respond accordingly. Additionally, it figured out the relation between four types of emotion as emotion recognition UI on SMART TV screen and contents. As a result, it was able to recognize preferring the comedy programs much more according to the degree of happy emotion and appeared that men have a higher preference than women. When they were in sad emotion, the valid result value was not come out though, showed that preferring the exciting contents slightly and women have a little higher preference than men. It claimed that the reason for this was the person who has sad emotions preferring exciting contents more to decrease that emotion which is a theory called mood based management of Zilinman(Zilinman D 1988b), and (Cynthia Crider., et al .2008 & Jennifer Lerner., et al 2013) who is a doctoral researcher at Carnegie Mellon University in United States asserted that the reason is that ‘present bias’ which requiring happiness that could gain right away when they had a sad feeling in the similar research. In the preference analysis of contents by personality, the extroverted person showed a higher preference on comedy genre and music show and men showed a higher preference than women. The introverted person has a highest preference on music show and showed the preference on GAG the next. The hypothesis that introverted person prefers a sad genre in drama has been dismissed in the existing hypothesis and it was able to recognize the preference is varied much according to the degree of introverted tendency in the preference of emotion and characteristics of contents. Therefore, the user-centered emotion and tendency based emotional recognition user interface cannot be the way of overall user interface of Smart TV yet, it will become a good alternative on choosing contents and it can be applied to various smart devices by applying this. 본 연구에서 우리는 감정 인식 스마트 기기가 사용 될 때 사람과 기기 사이의 상호 관계의 영향에 대해 중점을 둔다. 사용자 중심의 기기에 관하여 우리는 감정 기반의 스마트 기기가 다른 수동적 입력 기기와 비교해 볼 때 사람과 상호 교환하는데 가장 효과적인 기기라고 가정한다. 40명의 참가자들은 세 가지의 다른 유저인터페이스인 리모컨, 제스처 인식, 음성 인식 시스템과 감정 인식 시스템으로 스마트 TV를 시청하였다. 그들이 리모컨, 음성 인식 시스템과 제스처 인식으로 TV를 사용하였을 때 그들에게 흥미롭고 슬픈 콘텐츠가 주어졌고 제한된 시간 내에서 그들이 보고 싶은 어떠한 콘텐츠를 선택할 수 있었다. 반면에 감정 인식 시스템과 Fraunhofer IIS SHORE™ 데모 소프트웨어로 참가자들의 표정은 자동적으로 인식되고 그들의 감정에 따른 콘텐츠가 제공되었다. 이 연구는 사람과 상호 작용할 수 있는 감정 기반 스마트 기기가 HCI에서 가장 효과적인 유저인터페이스가 될 것 이라는 새로운 개념을 제공한다. 이 연구는 사람들이 어떻게 느끼는지 그리고 어떻게 스마트 TV가 그에 따라 반응 할 것 인지를 토론할 것이다. 추가적으로 스마트 TV상에서 감정 인식 UI인 4가지의 감정과 콘텐츠 사이의 관계를 알아냈다. 결과적으로 행복한 감정의 정도에 따라 코미디 프로그램을 더 많이 선호하는 것을 알 수 있었고 여자보다 남자가 더 높은 선호도를 가지는 것으로 나타났다. 그들이 슬픈 감정에 일 때, 비록 유효한 결과값은 나오지 않았지만 흥미진진한 콘텐츠를 조금 선호하는 것으로 나타났고 여성이 남자보다 더 높은 선호도를 가지고 있다. 이러한 이유는 슬픈 감정을 가진 사람이 흥미로운 콘텐츠를 더 선호하는 것은 Zilinman의 기분 기반 관리라고 불리는 이론인 그 감정을 줄이기 위해서라고 주장하였고, 미국 카네기 멜론 대학교에서 박사 과정 연구원인 Cynthia Crider와 Jennifer Lerner는 그 이유는 비슷한 연구에서 그들이 슬픈 기분일 때 바로 얻을 수 있는 행복을 요구하는 ‘현실 편향’ 때문이라고 주장한다. 성격에 따른 선호도 분석에서 외향적 성격을 가진 사람은 코미디 장르와 음악에 더 높은 선호도를 나타냈고 남성이 여성보다 더 높은 선호도를 가지는 것으로 나타났다. 내향적 성격을 가진 사람은 음악 쇼를 가장 선호하고 개그 프로그램을 그 다음으로 선호하는 것으로 나타났다. 실재하는 가설에서 내향적인 사람이 드라마에서 슬픈 장르를 선호한다는 가설은 기각되었고 선호도는 감정의 선호도와 콘텐츠의 특성에서 내향적 성향의 정도에 따라 매우 다양하다는 것을 알 수 있었다. 따라서 본 논문에서는 이용자 중심의 감성과 성향 기반의 감정인식 유저인터페이스가 아직 스마트 TV의 전체적인 유저인터페이스의 방식을 될 수 없지만 콘텐츠을 선택함에 있어서 좋은 대안이 될 수 있을 것이며 이를 응용하여 다양한 스마트 디바이스에 응용 할 수 있을 것이다.

      • (A) Study of Speech Emotion Recognition Based on Timbre and Deep Frequency Features using Deep Learning

        Tursunov, Anvarjon 세종대학교 대학원 2022 국내박사

        RANK : 2940

        As humans, we express ourselves most naturally through speech and use a lot of indirect and non-verbal means to convey our emotions. Emotional speech helps us better understand each other and it is beneficial to apply this concept to computer applications (for example, Google Assistant, Amazon Alexa, and Apple Siri). These intelligent voice assistants are already a part of our daily life and help us with various tasks such as controlling smart home devices, finding information online, sending messages with hands and having eyes-free usage. Even though these voice assistants are smart, they are not capable of recognizing and producing emotional speech during the interaction with the users. Speech emotion recognition (SER) is an important component of Human-Computer Interaction (HCI). These systems aspire to create natural human-machine interaction easier by using direct voice as an input and make it simple for human listeners to react (for example, call center conversations and medical applications). There are several issues that need to be solved to build automatic SER system. The first issue is the lack of speech feature set that is capable of recognizing emotions with high recognition score. Current investigated speech features are limited to recognize positive and negative emotions due to the similarity of most of the acoustic characteristics of emotional speech. Moreover, high dimensional speech features cause to have high computational complexity and makes the SER system not applicable to use in real time applications due to long processing time. As a result, a robust SER system requires efforts to find suitable speech features and an appropriate model that is capable of capturing emotion-specific information from the extracted speech features. In order to address the mentioned challenges, this thesis proposes timbre speech feature set that are capable of efficiently representing emotions-specific information in speech signals and a SER model which achieved a higher detection rate of emotions from speech signals with fewer number of model parameters compared to prior suggested methods. More specifically, two efficient speech feature-based emotion recognition methods have been proposed to analyze and learn emotion-specific patterns in speech signals. The first method proposes robust speech features for efficiently recognizing positive and negative emotions. Moreover, these speech features are also capable of classifying discrete emotions. Proposed speech features are based on a complex set of auditory attributes that describe the quality of a sound called timbre features. It allows us to distinguish speech signals which have the same level of amplitude intensity and fundamental frequency. To determine the optimal collection of speech features among timbre feature set as well as to reduce the dimensionality of feature vector size, the sequential forward selection (SFS) method is applied. The proposed speech features are extracted from every frame, which usually has 25-30 milliseconds of speech duration. Thus, sequential patterns can be learned and identified efficiently using these speech features. The second method proposes to use plain rectangular kernel and modified pooling method in a convolutional neural network (CNN) to extract deep frequency features from speech spectrograms. The plain rectangular kernel checks every frequency bin in speech spectrograms and extracts the most important deep frequency features to the target emotion category. The modified pooling strategy selects dominant features among extracted deep frequency features and reduces the size of the extracted feature maps to process in the following layer with lower computation costs. The proposed novel CNN model uses fewer convolution, pooling, and batch normalization layers with fewer parameters to reduce the cost computation and time complexity. The proposed speech features were evaluated using two benchmark datasets including the berlin emotional speech database (EMO-DB) and interactive emotional dyadic motion capture (IEMOCAP) emotional speech datasets. The first proposed timbre features based SER method is improved the classification accuracy of positive and negative emotions by 11.17 % with 140 times less number of feature vectors size compared to INTERSPEECH Computational Paralinguistics Challenge (ComParE) acoustic feature set on EMO-DB dataset. The second proposed method has improved emotion detection rate by 5% on IEMOCAP and 7% on EMO-DB with 3.34 and 4.28 time less processing time, respectively, when compared to recent CNN based SER methods. The experimental results demonstrate that the proposed speech features-based SER systems have improved the recognition rate in the classification of emotions on both valence dimension and discrete emotions compared to the state-of-the-art SER systems. Keywords: Human-Computer Interaction, Speech emotion recognition, sequential forward selection, timbre features, convolutional neural network, speech spectrograms, deep frequency features

      • (The) effect of attention training on emotion recognition with context in individuals with broad autism phenotype

        우도현 중앙대학교 대학원 2022 국내석사

        RANK : 2939

        본 연구는 정서인식 상황에서 주의 훈련이 전반적 자폐 표현형 (Broad Autism Phenotype; BAP) 경향자의 정서 인식에 미치는 효과를 확인하고자 하였다. 총 512명의 성인을 대상으로 전반적 자폐 표현형 질문지(The Broad Autism Phenotype Questionnaire; BAPQ)와 자폐 스펙트럼 지수 척도(The Autism-Spectrum Quotient; AQ)를 실시하여 두 척도의 절단점을 기준으로 BAP 집단(N=52)과 건강한 통제 집단(N=30)으로 구분하여 모집하였다. 이후 BAP 집단과 건강한 통제 집단 간의 정서 인식의 차이를 확인하기 위해 정서 인식 과제를 실시하였다. BAP 집단의 경우, 훈련의 종류에 따라 정서적 얼굴 N-back (The Emotional Face N-back; EFN-back) 훈련 조건에 25명, 반복 훈련 조건에 27명씩 할당하여 훈련 전, 첫번째 훈련 후, 두번째 훈련 후, 총 3번의 정서 인식 과제를 실시하여 목표 자극의 정서에 대한 반응 속도와 정확도를 비교하였다. 실험 결과, 훈련 전 정서 인식 과제에서 BAP 집단은 통제 집단보다 느리게 정서를 인식하지만, 훈련을 실시한 이후, 정서 인식 속도에 대해 두 집단 간에 차이를 보이지 않았다. 또한, EFN-back 훈련을 받은 BAP 집단은 반복 훈련 집단을 받은 BAP 집단보다 정서 인식 속도가 빠르게 나타났으며, 이는 두 번째 훈련 이후에 두드러지게 정서 인식 속도가 더 빠르게 나타났다. 정서 인식의 정확도에 대해서는 BAP 집단과 통제 집단은 모든 조건에서 차이를 나타내지 않았다. 이러한 결과는 BAP를 가진 사람들은 비전형적인 인지적 주의 특성을 가지고 있어 주의를 이동시켜 정서적 자극에 주의를 두는 데 어려움이 있으며, 이러한 어려움은 주의 훈련을 통해 목표하는 자극의 정서에 주의의 초점을 두게 함으로써 정서 인식 속도를 향상시킬 수 있음을 의미한다. 이는 향후 장기적인 주의 훈련을 제공함으로써, 전반적 자폐 표현형 경향자의 사회적 상호작용 기술 향상에 대한 고려를 제안한다. This study aimed to confirm the effect of attention training on the emotion recognition of BAP in emotion perception situations. A total of 512 adults were divided into a BAP group and a healthy control group based on the cut-off score of the two scales by conducting the Broad Autism Phenotype Questionnaire (BAPQ) and the Autism-Spectrum Quotient (AQ). A total of 82 participants were selected from 30 healthy control groups and 52 BAP groups. After that, the emotion recognition task was conducted to confirm the difference in the emotion recognition between the BAP groups and the healthy control group. The BAP group were assigned according to the type of training: (1) the Emotional Face N-back (EFN-back) training group (N=25); and (2) the repeated training condition (N=27). To confirm the effectiveness of the attention training, the reaction time and accuracy to the emotion of the target stimulus were measured by conducting the emotion recognition task third times. As the result of the analysis, the BAP groups recognized target emotions slower than the healthy control group in the baseline. but after training, there was no difference between the BAP and healthy control group about the reaction time of emotion recognition. Especially, the EFN-back training group showed faster reaction time to target emotion recognition compared to the repeated training group, which showed significantly faster speed after the 2nd training. For the accuracy of emotional recognition, the BAP groups and healthy control group did not show any difference under all conditions. These findings indicate that individuals with BAP have atypical cognitive attention styles, making it difficult to shift attention quickly to target emotion stimulus, and these difficulty can be improved by orienting attention to the target emotion through attention recognition training. This study suggests that it is necessary to provide long-term attention training for improving social interaction skill in individuals with BAP in the future study.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼