RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      계층적 Transformer 및 슬라이딩 윈도우 어텐션 기반 Dialogue Act Classification 모델 연구

      한글로보기

      https://www.riss.kr/link?id=T16916622

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      Dialogue Act Classification(DAC)은 발화 별 Dialogue Act(DA)를 분류하는 과제이다. 이것은 과제 지향적 대화 시스템(task oriented dialogue system)을 구축하기 위해 선행되는 자연어 이해 과제 중 하나이다. 최근 다양한 Large Language Model(LLM)이 등장하면서 여러 대화 시스템 연구도 큰 영향을 받았다. 하지만 LLM이 가지는 부족한 신뢰성, 전문분야에 관한 취약성과 같은 한계점으로 인해 LLM이 과제 지향적 대화 시스템을 온전히 대체하는 것은 불가능하다. 따라서, 과제 지향적 대화 시스템을 잘 구축하기 위한 세부 단계인 DAC에 관한 연구는 여전히 중요하다. 대화 이해에 대한 기존 방법론들은 대화의 계층적, 연속적인 특징을 반영하기 위해 주로 Hierarchical RNN 기반의 구조를 사용해왔다. 하지만 이러한 방법론들은 하나의 발화를 이해하기 위해 대화의 모든 발화의 정보를 동일하게 반영하였다. 이는 발화를 이해하는 데 있어 멀리 떨어진 발화보다 인접 발화의 정보가 더 중요하다는 대화의 특성을 반영하지 못한다는 한계를 가진다. 이러한 문제를 해결하기 위해 본 논문에서는 계층적인 구조의 Transformer를 도입하였고 인접 발화 간의 영향을 반영할 수 있는 새로운 방법론을 제안하였다. 먼저, BERT 기반 모델을 사용하여 발화에 대한 임베딩을 생성한다. 또한, 화자에 대한 정보를 학습하기 위해 화자를 대표하는 스페셜 토큰을 추가하였고 해당 토큰의 임베딩을 발화에 대한 임베딩과 결합하여 사용하였다. 생성된 임베딩에 대해 Transformer의 sequence to sequence 구조를 활용하여 최종적으로 발화에 대한 act를 예측하였다. 이때 인접 발화의 정보를 더욱 면밀히 반영할 수 있는 새로운 attention 구조를 제안하고 도입하였다. 이후 DailyDialog(DyDA) 벤치마크 데이터에 대한 실험을 통해 베이스라인과 결과를 비교하였다. 이를 통해 본 논문이 제안하는 모델이 기존 방법론들보다 성능적인 우위를 가진다는 것을 확인하였다. 또한, 새롭게 도입한 attention 구조가 성능향상에 기여했음을 확인하였다.
      번역하기

      Dialogue Act Classification(DAC)은 발화 별 Dialogue Act(DA)를 분류하는 과제이다. 이것은 과제 지향적 대화 시스템(task oriented dialogue system)을 구축하기 위해 선행되는 자연어 이해 과제 중 하나이다. 최...

      Dialogue Act Classification(DAC)은 발화 별 Dialogue Act(DA)를 분류하는 과제이다. 이것은 과제 지향적 대화 시스템(task oriented dialogue system)을 구축하기 위해 선행되는 자연어 이해 과제 중 하나이다. 최근 다양한 Large Language Model(LLM)이 등장하면서 여러 대화 시스템 연구도 큰 영향을 받았다. 하지만 LLM이 가지는 부족한 신뢰성, 전문분야에 관한 취약성과 같은 한계점으로 인해 LLM이 과제 지향적 대화 시스템을 온전히 대체하는 것은 불가능하다. 따라서, 과제 지향적 대화 시스템을 잘 구축하기 위한 세부 단계인 DAC에 관한 연구는 여전히 중요하다. 대화 이해에 대한 기존 방법론들은 대화의 계층적, 연속적인 특징을 반영하기 위해 주로 Hierarchical RNN 기반의 구조를 사용해왔다. 하지만 이러한 방법론들은 하나의 발화를 이해하기 위해 대화의 모든 발화의 정보를 동일하게 반영하였다. 이는 발화를 이해하는 데 있어 멀리 떨어진 발화보다 인접 발화의 정보가 더 중요하다는 대화의 특성을 반영하지 못한다는 한계를 가진다. 이러한 문제를 해결하기 위해 본 논문에서는 계층적인 구조의 Transformer를 도입하였고 인접 발화 간의 영향을 반영할 수 있는 새로운 방법론을 제안하였다. 먼저, BERT 기반 모델을 사용하여 발화에 대한 임베딩을 생성한다. 또한, 화자에 대한 정보를 학습하기 위해 화자를 대표하는 스페셜 토큰을 추가하였고 해당 토큰의 임베딩을 발화에 대한 임베딩과 결합하여 사용하였다. 생성된 임베딩에 대해 Transformer의 sequence to sequence 구조를 활용하여 최종적으로 발화에 대한 act를 예측하였다. 이때 인접 발화의 정보를 더욱 면밀히 반영할 수 있는 새로운 attention 구조를 제안하고 도입하였다. 이후 DailyDialog(DyDA) 벤치마크 데이터에 대한 실험을 통해 베이스라인과 결과를 비교하였다. 이를 통해 본 논문이 제안하는 모델이 기존 방법론들보다 성능적인 우위를 가진다는 것을 확인하였다. 또한, 새롭게 도입한 attention 구조가 성능향상에 기여했음을 확인하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Dialogue Act Classification (DAC) is a task that involves classifying Dialogue Acts (DAs) on a per-utterance basis. This constitutes one of the preliminary tasks in natural language understanding, essential for constructing task-oriented dialogue systems. Recently, various Large Language Models (LLMs) have emerged, greatly influencing research on various dialogue systems. However, due to limitations such as the inherent lack of reliability and vulnerabilities in specific domains, complete replacement of task-oriented dialogue systems by LLMs is deemed impossible. Consequently, research on the DAC, a crucial step in constructing effective task-oriented dialogue systems, remains paramount. Existing methodologies for dialogue understanding have employed structures based on Hierarchical Recurrent Neural Networks (RNNs) to capture the hierarchical and sequential features of conversations. However, these approaches fail to adequately reflect the characteristic influence between adjacent utterances, as they uniformly incorporate information from all utterances in a dialogue when understanding a single utterance. To address this limitation, this paper introduces a hierarchical Transformer structure and proposes a novel attention mechanism capable of capturing the influence between adjacent utterances. Firstly, embeddings for utterances are generated using a BERT-based model. Additionally, a special token representing the speaker is added to learn speaker information, and the embedding of this token is combined with the embedding for the utterance. The final act for the utterance is predicted by utilizing the sequence-to-sequence structure of the Transformer on the generated embeddings. A novel attention structure is proposed and introduced to more precisely incorporate information from adjacent utterances. Subsequent experiments on the Dailydialog (DyDA) benchmark dataset compare the results of our proposed model with existing methodologies. Through these experiments, we confirm that the model proposed in this paper outperforms existing approaches in terms of performance. Furthermore, we validate that the newly introduced attention structure contributes to performance improvement.
      번역하기

      Dialogue Act Classification (DAC) is a task that involves classifying Dialogue Acts (DAs) on a per-utterance basis. This constitutes one of the preliminary tasks in natural language understanding, essential for constructing task-oriented dialogue syst...

      Dialogue Act Classification (DAC) is a task that involves classifying Dialogue Acts (DAs) on a per-utterance basis. This constitutes one of the preliminary tasks in natural language understanding, essential for constructing task-oriented dialogue systems. Recently, various Large Language Models (LLMs) have emerged, greatly influencing research on various dialogue systems. However, due to limitations such as the inherent lack of reliability and vulnerabilities in specific domains, complete replacement of task-oriented dialogue systems by LLMs is deemed impossible. Consequently, research on the DAC, a crucial step in constructing effective task-oriented dialogue systems, remains paramount. Existing methodologies for dialogue understanding have employed structures based on Hierarchical Recurrent Neural Networks (RNNs) to capture the hierarchical and sequential features of conversations. However, these approaches fail to adequately reflect the characteristic influence between adjacent utterances, as they uniformly incorporate information from all utterances in a dialogue when understanding a single utterance. To address this limitation, this paper introduces a hierarchical Transformer structure and proposes a novel attention mechanism capable of capturing the influence between adjacent utterances. Firstly, embeddings for utterances are generated using a BERT-based model. Additionally, a special token representing the speaker is added to learn speaker information, and the embedding of this token is combined with the embedding for the utterance. The final act for the utterance is predicted by utilizing the sequence-to-sequence structure of the Transformer on the generated embeddings. A novel attention structure is proposed and introduced to more precisely incorporate information from adjacent utterances. Subsequent experiments on the Dailydialog (DyDA) benchmark dataset compare the results of our proposed model with existing methodologies. Through these experiments, we confirm that the model proposed in this paper outperforms existing approaches in terms of performance. Furthermore, we validate that the newly introduced attention structure contributes to performance improvement.

      더보기

      목차 (Table of Contents)

      • < 그림 차례 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ iii
      • < 표 차례 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ iv
      • < 국문 요약 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ v
      • < 그림 차례 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ iii
      • < 표 차례 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ iv
      • < 국문 요약 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ v
      • 1. 서론 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 1
      • 2. 관련 연구 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 5
      • 3. 연구 방안 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 7
      • 3.1 Utterance Embedding ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 8
      • 3.2 Context Modeling ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 11
      • 3.3 Adjacent Attention ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 12
      • 3.3.1 Hard Adjacent Attention ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 13
      • 3.3.2 Soft Adjacent Attention ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 15
      • 4. 실험 및 결과 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 18
      • 4.1 데이터 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 18
      • 4.2 학습설정 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 19
      • 4.3 베이스라인 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 19
      • 4.4 실험결과 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 20
      • 4.4.1 사전학습 모델에 따른 성능 비교 ․․․․․․․․․․․․․․․․․․․․․․․․․ 21
      • 4.4.2 Window size에 따른 성능 비교 ․․․․․․․․․․․․․․․․․․․․․․․․․․․ 22
      • 4.4.3 Encoder/decoder에 따른 차이 비교 ․․․․․․․․․․․․․․․․․․․․․․․ 24
      • 4.4.4 Soft Adjacent Attention 적용 결과 ․․․․․․․․․․․․․․․․․․․․․․ 26
      • 5. 결론 ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 27
      • < 참고 문헌 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 29
      • < 영문 요약 > ․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․ 33
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼