http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
광역정보체제는 경찰의 정보기능을 강화하고, 집회·시위 등 공공갈등에 대한 대응 체계를 개선하는 데 기여하였다. 본 연구는 이러한 변화 속에서 대화경찰의 역할과 중요성이 더욱 부각됨에 따라, 광역정보 체제에서 대화경찰의 효과적인 운영을 위한 개선방안을 모색하고자 한다. 특히, 집회·시위 현장에서의 대화경찰의 역할과 중요성을 강조하며, 광역정보 체제라는 새로운 환경 속에서 대화경찰이 어떠한 역량을 갖추어야 하는지를 탐색하고자 한다. 또한, 대화경찰의 역량 강화를 위한 다양한 교육 프로그램 개발 및 인증제 도입 등 구체적인 개선방안을 제시하고자 한다. 본 연구는 문헌 연구와 심층 면접을 병행하여 진행되었다. 문헌 연구를 통해 국내외 대화경찰 관련 연구 동향을 파악하고, 경찰청 자료를 분석하여 광역정보체제 도입 이후 대화경찰의 현황을 파악하였다. 심층면접은 경기남부경찰청 소속 대화경찰 15명을 대상으로 진행하여 현장의 목소리를 직접 청취하고 개선방안을 도출하였다. 광역정보 체제는 대화경찰의 역할을 더욱 확대시켰으며, 다양한 공공갈등 상황에 효과적으로 대응하기 위해 대화경찰의 전문성 강화가 필요하다. 이와 관련해서, 시민들에게 신뢰를 주기 위해 인증제 도입이 필요하다. 인증제를 통해 대화경찰의 자긍심을 고취시키고, 체계적인 교육 프로그램 개발 및 평가 기준 마련이 가능하다. 대화경찰의 소수정예화를 통해 집중적 교육 및 대화 기법, 심리학, 문화 다양성 등 다양한 분야의 전문 교육을 제공해야 한다. 대화경찰 인력풀 개선 필요성도 있는데 다문화 공공갈등 상황에 선제적 대비를 위해 외사협력관을 포함하고, 경비경찰은 제외하여 대화경찰의 전문성을 강화해야 한다. 심층 면접을 통해 현장 경찰관들의 의견을 수렴하여 개선 방안을 마련해야 한다. 결론적으로, 광역정보 체제 도입 이후 대화경찰의 역할은 매우 중요해졌다. 대화경찰의 전문성 강화를 위해 인증제 도입, 전문 교육 과정 신설, 인력풀 개선 등 다양한 노력이 필요하다. 충분한 역량을 갖춘 대화경찰은 집회 참가자들과 일반 시민들과 신뢰를 구축하고, 공공갈등의 적절한 관리에 투입될 것이다. 우수한 대화경찰들은 평화적 집회시위문화 정착, 경찰 신뢰도 향상은 물론 우리 사회가 표현의 자유는 충분히 누리면서도 갈등 지수는 안정적으로 관리되는데 기여할 것이다. The metropolitan information system has enhanced the police's information capabilities and improved the response system for public conflicts such as assemblies and demonstrations. As the role and importance of dialogue policing have become more prominent in this changing environment, this study aims to explore improvement measures for the effective operation of dialogue policing within the metropolitan information system. In particular, this study emphasizes the role and importance of dialogue policing at the scene of assemblies and demonstrations, and explores the competencies that dialogue police officers should possess in the new environment of the metropolitan information system. In addition, this study proposes specific improvement measures such as the development of various educational programs and the introduction of a certification system to enhance the capabilities of dialogue police officers. This study was conducted through a combination of literature review and in-depth interviews. Through a literature review, the current trends in research on dialogue policing at home and abroad were identified, and police data was analyzed to understand the current status of dialogue policing after the introduction of the metropolitan information system. In-depth interviews were conducted with 15 dialogue police officers from the Gyeonggi Nambu Provincial Police Agency to directly listen to the voices of the field and derive improvement measures. The metropolitan information system has expanded the role of dialogue policing, and it is necessary to strengthen the expertise of dialogue police officers to effectively respond to various public conflict situations. In this regard, it is necessary to introduce a certification system to gain public trust. The certification system will enhance the pride of dialogue police officers and enable the development of systematic educational programs and evaluation criteria. Dialogue police officers should be trained in a small group to provide intensive education in various fields such as dialogue techniques, psychology, and cultural diversity. There is also a need to improve the dialogue police officer pool. To proactively prepare for multicultural public conflict situations, foreign affairs officers should be included, and security police officers should be excluded to strengthen the expertise of dialogue police officers. The opinions of field police officers should be collected through in-depth interviews to develop improvement measures. In conclusion, the role of dialogue policing has become very important following the introduction of the metropolitan information system. Various efforts are needed to strengthen the expertise of dialogue police officers, such as the introduction of a certification system, the establishment of specialized training courses, and the improvement of the personnel pool. Dialogue police officers with sufficient capabilities will build trust with assembly participants and ordinary citizens and be deployed for the appropriate management of public conflicts. Excellent dialogue police officers will contribute to the establishment of a peaceful assembly and demonstration culture, improving public trust in the police, and enabling our society to fully enjoy freedom of expression while maintaining a stable conflict index.
Dialogue Systems Specialized in Social Influence: Systems, Methods, and Ethics
Shi, Weiyan Columbia University ProQuest Dissertations & These 2023 해외박사(DDOD)
This thesis concerns the task of how to develop dialogue systems specialized in social influence and problems around deploying such systems. Dialogue systems have become widely adopted in our daily life. Most dialogue systems are primarily focused on information-seeking tasks or social companionship. However, they cannot apply strategies in complex and critical social influence tasks, such as healthy habit promotion, emotional support, etc. In this work, we formally define social influence dialogue systems to be systems that influence users' behaviors, feelings, thoughts, or opinions through natural conversations. We also present methods to make such systems intelligible, privacy-preserving, and thus deployable in real life. Finally, we acknowledge potential ethical issues around social influence systems and propose solutions to mitigate them in Chapter 6.Social influence dialogues span various domains, such as persuasion, negotiation, and recommendation. We first propose a donation persuasion task, PERSUASIONFORGOOD, and ground our study on this persuasion task for social good. We then build a persuasive dialogue system, by refining the dialogue model for intelligibility and imitating human experts for persuasiveness, and a negotiation agent that can play the game of Diplomacy by decoupling the planning engine and the dialogue generation module to improve controllability of social influence systems. To deploy such a system in the wild, our work examines how humans perceive the AI agent's identity, and how their perceptions impact the social influence outcome. Moreover, dialogue models are trained on conversations, where people could share personal information. This creates privacy concerns for deployment as the models may memorize private information. To protect user privacy in the training data, our work develops privacy-preserving learning algorithms to ensure deployed models are safe under privacy attacks. Finally, deployed dialogue agents have the potential to integrate human feedback to continuously improve themselves. So we propose JUICER, a framework to make use of both binary and free-form textual human feedback to augment the training data and keep improving dialogue model performance after deployment. Building social influence dialogue systems enables us to research future expert-level AI systems that are accessible via natural languages, accountable with domain knowledge, and privacy-preserving with privacy guarantees.
한국어 교육용 대화 시스템 개발을 위한 화행 판별 자질 연구
The aim of this paper is to classify the dialogue act of user response utterances for the development of a dialogue system for Korean language education and to select what features are appropriate for efficiently discriminating such utterances. This paper proposes a dialogue tag set that classifies the learner's utterance intent to develop a chat bot dialog system designed to enable Korean learners to practice Korean conversation. In order to classify the utterances automatically according to these tag set, I examine what features are suitable for the conversation system made for Korean education among the discriminant features used in the previous research. For this purpose, a corpus for Korean language education was collected to annotate the discriminant features and dialogue act. Based on the annotated corpus, we selected the dialogue act tags that can be used in the dialogue system for Korean language education. Rather than the traditional linguistic works, the discriminant features were chosen for practical use in the dialogue system for practicing Korean conversation. In case of the discriminant features, the features that can be commonly used in both rules base – d automatic classification and statistics-based automatic classification are selected and analyzed. The first chapter presents the purpose and background of this study. After examining the discussions related to the speech, second chapter the scholarly works on the automatic classification method. Furthermore, this chapter analyze the corpus used in the previous research after summarizing the discriminant features used in the study. The third chapter provides the design and collection of dialog corpus to be used in the dialogue system for Korean language education. The fourth chapter analyses the collected response speech data. The conclusion part gives the results of this study and future issues. 본고의 연구 주제는 한국어 교육 목적의 대화 시스템 개발을 위하여 사용자 응답 발화의 화행을 분류하고, 이러한 화행을 효율적으로 판별하는 데 적합한 자질이 무엇인지를 선별하는 것이다. 본고는 한국어 학습자들이 한국어 회화를 연습할 수 있도록 고안된 챗봇 대화 시스템에 입력된 학습자의 발화 의도를 파악하고 분류하는 화행 표지 체계를 제안한다. 또한, 이러한 화행 표지에 맞춰 발화를 자동으로 분류하기 위하여 기존에 화행 자동 분류 연구에서 이용된 화행 판별 자질 중 한국어 교육 목적 대화 시스템에 적합한 자질이 무엇인지 검토한다. 이를 위하여 한국어 교육용 대화 말뭉치를 구축하여 화행과 화행 판별 자질을 주석하였다. 주석된 말뭉치를 바탕으로 한국어 교육 목적의 대화 시스템에서 활용 가능한 화행 표지를 선정하였고, 화행 판별 자질과 화행 간의 연관도를 검토하여 각 화행별로 유의미한 화행 판별 자질을 추출하였다. 화행 표지는 전통적인 언어학에서의 화행과는 별개로 한국어 회화를 연습하기 위한 대화 시스템에서 실용적으로 활용할 수 있는 표지를 선택하였다. 화행 판별 자질의 경우 규칙 기반 자동 분류 모델과 통계 기반 자동 분류 모두에서 공통으로 활용할 수 있는 자질을 선정하여 그 특성을 분석하였다. 서론에서는 본 연구의 목적과 배경, 의의에 대해서 논한다. 관련 연구에서는 화행과 관련된 논의를 살펴본 후, 화행 자동 분류 방식에 대한 연구의 흐름에 대해서 탐구하면서 이러한 연구에서 활용된 화행 판별자질에 대하여 정리한 뒤 기존의 연구에서 활용된 말뭉치에 대하여 분석한다. 3장에서는 한국어 교육 목적의 대화 시스템에서 사용될 대화 말뭉치의 설계와 구축에 대하여 논의하고 4장에서는 수집된 응답 발화 데이터를 분석하여 화행별로 유의미한 화행 판별 자질을 선별한다. 결론에서는 본 연구의 성과와 추후 과제에 대하여 논한다.
인간-로봇 상호작용을 위한 사회적 대화 전략 모델과 사용자 평가
과거의 로봇은 사람들을 대신해 특수한 임무를 맡는 산업용으로 개발되었다면, 최근에는 인공지능이 발전하면서 사람들과 상호작용할 수 있는 지능형 로봇이 개발되고 있다. 사람들과 자연스럽게 대화하기 위해 지능형 로봇을 포함한 지능형 에이전트는 대화 시스템(Dialogue System)을 사용해야 한다. 대화 시스템은 대화 이해부, 대화 관리부, 대화 생성부로 구성되며 대화의 문맥을 읽는 시스템을 개발하기 위해서는 대화 관리부의 역할이 필요하다. 대화 관리부에서는 이전의 발화 내용과 사용자의 발화 의도를 통해 적절한 시스템의 발화 의도를 결정하기 때문이다. 대화 시스템 분야에서는 대화 관리부를 통해서 사용자들의 참여를 지속시키고 신뢰, 유대감 형성을 위한 사회적 대화 전략(Social Conversational Strategy)을 연구한다. 사회적 대화 전략을 학습한 대화 관리부는 사람의 사회적인 의도에 따라 시스템도 사회적으로 발화하도록 돕는다. 그러나 사회적 대화 전략 연구는 영어 화자의 위주로 진행되고 있으며, 한국어 화자를 위한 연구는 부족한 상황이다. 지능형 에이전트를 사용하는 한국어 화자들의 지속적인 참여와 신뢰를 향상시키기 위해서는 사회적 대화 전략 연구가 필요하며 한국어 대화 특성을 반영하기 위한 연구가 시도되어야 한다. 본 논문은 한국어 상담 채팅 데이터에서 사회적인 의도를 9가지로 분류한 선행 연구를 토대로 사회적 대화 전략 모델을 제안한다. 사회적 대화 전략 모델은 HMM(Hidden Markov Model)과 CRF(Conditional Random Fields) 모델로 학습시켰고, 각 모델의 성능을 k-fold 교차 검증으로 확인하였다. 또한 학습된 사회적 대화 전략 모델이 실제로 유대적 관계를 형성할 수 있는지 평가하기 위해 사회적 대화 전략 모델, 인간 전략 모델, 랜덤 전략 모델, 과업 수행 모델에서의 서비스 만족도, 유대감, 유용성, 신뢰도를 비교하였다. In the past, robots were developed for industries that have special missions on behalf of people. Recently, intelligent robots that can interact with people have been developed as artificial intelligence technology advances. To interact naturally with people, intelligent agents need to use dialogue systems. The dialogue system is composed of Natural Language Understanding, Dialogue Manager, and Natural Language Generation. Among these, the Dialogue Manager is necessary for intelligent agents to grasp the context of the conversation. This is because the Dialogue Manager determines an appropriate utterance intention of the intelligent agent based on the previous utterance contents and the user's utterance intention. In the field of the Dialogue System, Social Conversational Strategy is studied to maintain user participation and build trust and bond through the Dialogue Manager. The Dialogue Manager, which has learned the Social Conversational Strategy, allows the Dialogue system to speak socially according to people's social intentions. However, previous research on Social Conversational Strategy has been focused on English speakers, and research for Korean speakers is lacking. To improve the sustainable use and trust of Korean speakers using intelligent agents, it is necessary to investigate Social Conversational Strategy research as reflected in the characteristics of Korean dialogue. This paper designs a Social Conversational Strategy Model based on the previous research that classifies social intentions into nine categories using Korean consultation chat data. The Social Conversational Strategy Model was trained using the HMM (Hidden Markov Model) and CRF (Conditional Random Fields) models, and the performance of each model was confirmed by k-fold cross-validation. In addition, in order to explore whether the learned Social Conversational Strategy Model affects the formation of social bonds between the intelligent agents and humans this paper figured out the effect of four models (Social Conversational Strategy Model, Human strategy model, Random strategy model, Task-Only model) on service evaluation, bonding, usefulness, and reliability were evaluated.
Knowledge-Grounded Colloquial Text Generation
Natural Language Generation (NLG) or text generation is a field of research focusing on building systems that automatically produce coherent and useful text for humans. In order to make NLG system generate useful texts, the system must deliver informative knowledge and work in a noisy text environment; knowledge-grounded dialogue can be one of the representative examples. Recently proposed pipeline for open-domain QA [1] can be directly used for knowledge-grounded dialogue, but the colloquial nature of dialogue poses new challenges towards human-level performance. In this thesis, we select four challenges for knowledge-grounded colloquial text generation, and propose novel approaches to improve the generation performance under each challenge. First, we investigate how to collect large-scale colloquial dataset from online discussion forum. Our new dataset has some abstractive characteristics compared to existing datasets based on formal texts. Second, we introduce a new knowledge-grounded dialogue model to improve knowledge selection in knowledge-based dialogue. Unlike prior work, which mostly focused on how to effectively combine given knowledge and dialogue context, our work deals with the diversity in knowledge selection of conversation. Third, we study misinformation and disinformation problems from knowledgeenhanced dialogue agents. We curate colloquial claims by transferring existing fact-checking dataset to colloquialism, and discuss how existing fact checking systems behave on claims in dialogues. Lastly, we proposed data-level knowledge distillation pipeline to build an efficient and precise knowledge-grounded dialogue agent by taking the best of both worlds of large generative model and efficient retrieval model. 자연어 생성 (Natural Language Generation) 또는 텍스트 생성은 내용이 일관성 있고, 사람에게 유용한 문장들을 생성하는게 목표인 연구 분야이다. 이런 자연어 생성 시스템들이 유용한 문장들을 만들어내게 하기 위해서는, 이 시스템은 (i) 유익 한 정보들을 포함한 문장들을 만들어내야 하며, (ii) 구어체와 같은 비정형 텍스트 상에서도 작동하여야 한다. 이런 요구 사항들을 만족하는 대표적인 예시로는 지식 기반 대화 (knowledge-grounded dialogue)가 있다. 최근에 활발히 연구된 질의 응 답 시스템들 [1]을 바로 지식 기반 대화 시스템을 적용해 볼 수 있으나, 대화의 여러 특성들 때문에 질의 응답 시스템과 달리 인간 수준의 성능을 달성하는데 여러가지 어려움이 있다.본 학위 논문에서는, 구어체 환경에서 지식 기반 텍스트를 생성하기 위한 네 가지 어려움을 이겨내기 위한 방법들을 하나씩 소개한다. 첫번째로, 온라인 게시 판으로부터 수집한 대규모 구어체 데이터셋을 소개한다. 이 데이터는 대화체 및 구어체로 이루어져 있기 때문에 형식이 잘 갖춰진 텍스트로 이루어진 기존의 데 이터셋과 완전히 다른 특성들을 지니고 있다. 두번째로, 지식 기반 대화 시스템의 지식 선택 과정의 정확도를 크게 올린 모델을 제안한다. 기존 연구들은 주로 이 미 선택된 문서와 대화 문맥으로 좋은 응답을 얼마나 잘 만들어낼 수 있는지에 집중해왔었는데, 기존 연구들과 달리 본 연구에서는 대화에 사용할 지식 선택의 모호성 및 다양성 문제를 다뤘다. 세번째로, 지식 기반 대화 시스템이 잘못된 정 보를 전달하는 문제를 다룬다. 이를 위해 기존의 팩트체크 데이터셋들을 대화체로 변환시킨 다음, 기존의 팩트 체크 시스템들이 이런 대화체의 문장들에서 얼마나 잘 동작하는지를 살펴보았다. 마지막으로, 빠르면서 정확한 지식 기반 대화 시스템을 만들기 위해 데이터 레벨의 지식 증류 (knowledge distillation) 방법을 제안한다. 생성 기반 모델을 정확한 대신 느리고, 검색 기반 모델은 빠른 대신 정확도가 떨어진다는 문제가 있는데, 이 둘의 장점을 각각 취합하여 빠르면서 정확한 모델을 만드는 방법을 제안한다.
Improving Reliability in Dialogue Systems
Gupta, Prakhar Carnegie Mellon University ProQuest Dissertations 2023 해외박사(DDOD)
Dialogue systems have undergone significant advancements by leveraging large public corpora and advancements in neural architectures. Thanks to large pre-trained language models and recent developments in neural networks, dialogue generation systems are now capable of producing fluent and engaging responses across various dialogue contexts. However, black-box nature and heightened complexity of end-to-end neural dialogue models make them susceptible to unknown failure modes that often emerge only after deployment. To improve the reliability of neural dialogue models for practical applications, several challenges need to be addressed. Firstly, creating robust and bias-free evaluation and ranking models for dialogue is a not straight-forward as it requires careful consideration of various factors such as context, coherence, relevance, and user satisfaction. Secondly, controlling the outputs of dialogue response generation models to align with developers' intended goals presents a challenge. Current approaches often lack the necessary flexibility, intuitiveness, interpretability, and data-efficiency to enable fine-grained control over the generated responses. Lastly, enhancing safety measures is crucial to ensure that dialogue systems do not generate offensive or factually incorrect responses, thereby avoiding unintended harm to users.This thesis addresses the challenges in enhancing the reliability of neural dialogue models by introducing novel techniques for robust evaluation and providing finer, more intuitive control over the response generation process. The thesis comprises two main parts that tackle these challenges. The first part focuses on the development of techniques for creating robust dialogue response evaluation and ranking algorithms. These techniques utilize multiple references, automatically generated adversarial responses, and improved benchmarking methods for assessing factuality. By incorporating these approaches, the thesis aims to establish more reliable and comprehensive evaluation metrics for dialogue systems, ensuring a more accurate assessment of their performance. The second part of the thesis proposes techniques to empower developers with flexible, intuitive, and interpretable means of controlling the generation process. This includes the utilization of templates, examples, instructions, and guidelines to guide the system towards generating responses that align with specific tasks and developer intent. Additionally, this part introduces safety mechanisms designed to prevent misuse and harm to users. These safety mechanisms utilize natural language instructions and guidelines to ensure responsible and ethical behavior of the dialogue systems.
DACS : Depression adaptive conversational system
Park, Dabin Sungkyunkwan University 2025 국내석사
본 연구는 DSM-5 기준에 기반하여 사용자의 심리 상태를 정량적으로 분석하고, 사용자 맞춤형 정서적 지원 전략을 제공하는 DACS(Depression Adaptive Conversational System)를 설계하였다. DACS는 기존 정서적 지원 시스템의 한계를 보완하며, 한국어 사용자를 대상으로 정밀하고 개인화된 심리 지원을 제공하도록 고안되었다. DACS는 세 가지 주요 모듈로 구성된다. 첫째, 우울 강도 감지 모듈은 KoELECTRA 기반의 회귀 모델을 활용하여 사용자의 텍스트 발화를 분석하고, 우울 강도를 정량적으로 평가한다. 이 과정에서 DSM-5의 우울증 증상 기준을 반영하여 9가지 주요 증상으로 사용자의 심리 상태를 분류한다. 둘째, 요약 모듈은 대화의 핵심 내용을 간결하게 추출하여 시스템이 문맥을 유지하며 효율적인 응답을 생성하도록 돕는다. 셋째, 응답 선택 모듈은 Poly-Encoder, Cross-Encoder, EPITOME Re-ranker를 통합하여 문맥 적합성과 공감 수준을 동시에 고려한 응답을 선택한다. 이러한 구조는 대화에서 문맥을 유지하면서도 비교적 높은 연산 속도를 보장한다. 실험 결과, DACS는 Cross-Encoder 기반 모델에 비해 효율성에서 뛰어난 성능을 보였으며, hits@1, precision@1 등 주요 성능 지표에서 우수한 결과를 기록하였다. 또한, 다양한 한국어 데이터셋을 활용한 학습을 통해, 공감적 대화와 우울 증상 완화를 위한 적합한 응답을 제공할 수 있음을 입증하였다. DACS는 기존 정서적 지원 시스템의 강점을 통합하고, 정량적 분석과 실시간 동적 대화 전략 조정을 통해 정서적 지원 대화 시스템의 새로운 패러다임을 제시한다. 향후 연구에서는 멀티턴 대화 지원, 다양한 지원 기법 통합 등을 통해 시스템의 확장성을 높이고, 개인화된 정서적 지원 경험을 더욱 강화할 계획이다. This study presents DACS (Depression Adaptive Conversational System), a conversational AI system designed to provide personalized emotional support based on DSM-5 criteria. DACS addresses limitations in existing emotional support systems by offering precise and tailored psychological assistance, specifically for Korean-speaking users. The proposed system consists of three main modules. First, the Depression Intensity Detection module employs a KoELECTRA-based regression model to analyze user text inputs and quantitatively evaluate the severity of depression. This module classifies users' psychological states into nine major symptoms defined by DSM-5 criteria. Second, the Summarization module condenses the dialogue's key content to ensure context preservation and efficient response generation. Third, the Response Selection module integrates Poly-Encoder, Cross-Encoder, and EPITOME Re-ranker to select responses that balance contextual relevance and empathetic quality. This architecture enables the system to maintain dialogue continuity while ensuring relatively high computational efficiency in conversations. Experimental results demonstrate that DACS excels in efficiency compared to Cross-Encoder-based models, achieving superior performance in key metrics such as hits@1 and precision@1. By utilizing various Korean-specific datasets, the system effectively generates empathetic responses and supports alleviating depressive symptoms in users. DACS consolidates the strengths of existing emotional support systems, offering a new paradigm in conversational systems by combining quantitative analysis, real-time dynamic emotional support strategies, and improved computational efficiency. Future work aims to expand the system’s capabilities to support multi-turn dialogues and incorporate diverse emotional support techniques, further enhancing personalized psychological support.
Towards Multi-Lingual Multi-Modal Dialogue Systems
Zhou, Mingyang University of California, Davis ProQuest Dissertat 2022 해외박사(DDOD)
Having an intelligent assistant that can communicate with humans to serve their needs is a fundamental challenge in Artificial Intelligence (AI) research. Recently, owing to the development of deep learning techniques and the large-scale datasets, we have witnessed a great advancement in dialogue systems. Nowadays, conversational agents have been deployed in millions of smart devices such as Alexa, Google home assistant, and Smartphones (e.g. Siri) to serve as personal assistants or chat companions for human users. Although tremendous success has been achieved, there are still major limitations. The majority of current dialogue systems can only process and communicate with language context, which limits their application to conversational tasks that require situational understanding such as language-guided visual navigation or fashion shopping assistant. Additionally, while there are more than 6500 different languages used in our world, the dialogue systems are mainly studied on English. In order to broaden the access of such AI techniques to non-English speakers, it is essential to build conversational AI agents that can communicate in multiple languages. To address these limitations, we aim to build multi-lingual multi-modal dialogue systems that learn to process context from multi-modal signals (vision and language) and communicate in various languages via interacting with real users. In this dissertation, we introduce our effort to approach this goal in two different research directions: 1. Ground Vision and Action: we build multi-modal dialogue systems that can ground conversations in a visual environment and adopt optimal actions to improve task success. we also collect a new benchmark that helps the dialogue system to learn cross-modal grounding via simultaneously handling vision generation from textual context and text generation from visual context in a unified conversational task. 2. Cross-lingual Cross-modal Representation Learning: To enable dialogue systems to become multi-lingual speakers, we conduct research to align the vision and various languages in a learned semantic space. Specifically, we research multi-modal machine translation and cross-lingual cross-modal pre-training techniques to learn joint representations across languages and modalities. we have also introduced how to learn robust universal cross-modal representation without parallel image-text pairs.
English speaking practice system for non-native speakers based on reading comprehension checks
이인구 Graduate School, Korea University 2022 국내박사
This study tried to establish a new speaking practice system using deep learning for non-native speakers of preschool or lower-grade elementary school children. While the basic speaking system assumes that the user can converse with the AI chatbot to some extent, the speaking practice system suggested in this study aims to reduce the child's burden by giving the child texts to read in advance and answer to the system’s questions according to the given text material. In order to use the new speaking practice system in reality, mainly two models in the speaking practice system need improvement. First, the performance of the Automatic Speech Recognition (ASR) model for non-native children's speech must be improved. Second, the Natural Language Processing (NLP) model for child response evaluation must be generalizable. Firstly, in order to improve the performance of the ASR model for non-native children's speech, spontaneous speech data of native adults was additionally used. The original data consists of read speeches of native adults, native children, non-native adults, and non-native children. It was confirmed in this study that the performance of speech recognition for non-native children improved with additional spontaneous speech data of native adults. Secondly, by introducing a deep learning method to the response evaluation system, it was possible to create a natural language processing model that can evaluate children's responses with over 90% accuracy even for new reading comprehension questions and answers that the NLP model have never been seen before. For the experiments, the ALBERT v3 model provided by Google was used. As a result of comparing 4 different trained models, it can be concluded that adding general paraphrase or non-paraphrase data to the model was helpful for generalizing the evaluation of the children’s responses to the reading comprehension questions. Also the result showed that question conditions prepended to the model inputs can give the NLP model better context on which to evaluate the users’ response. 이 연구의 목적은 미취학 및 초등학교 저학년 비원어민 아동을 위한 쉬운 말하기 연습 시스템을 만드는 것이다. 이를 위하여 본고는 독해 평가 기반의 말하기 연습 시스템을 제시하였다. 독해 평가 기반의 말하기 연습 시스템을 실제 서비스에 적용하기 위해서는 음성 인식 모델의 성능이 미취학 및 초등학교 저학년 비원어민 아동에 대하여 높아야 하고, 사용자 응답 평가 시스템이 새로운 질문과 답변에 대해서도 잘 대응할 수 있어야 한다. 이 연구는 독해 평가 기반의 말하기 연습 시스템이 실제 상용 서비스에서 사용될 수 있도록 음성인식 모델 개선 실험 및 사용자 응답 평가 시스템 일반화 실험을 진행하였다. 첫번째로 음성 인식 모델 실험에서는 기존의 원어민 성인, 원어민 아동, 비원어민 성인, 비원어민 아동의 낭독 발화 데이터를 모두 넣어 음향 모델을 학습한 결과와 추가적으로 원어민 성인의 자유 발화 데이터를 넣어 학습한 결과를 비교하였다. 결과적으로 자유 발화 데이터를 음성 인식 모델 훈련에 포함시켜서 비원어민 아동 음성 인식에 대한 모델 성능이 높아지는 것을 확인할 수 있었다. 두번째로 사용자 응답 평가 모델을 일반화하기 위하여 딥러닝 모델인 영어 알버트 모델을 훈련하였고, 훈련 시에 본 적 없는 새로운 독해 질문과 정답에 대해서도 사용자 응답의 정오 판단을 90% 이상의 정확도로 대응할 수 있는 일반화된 사용자 응답 평가 모델을 구축할 수 있었다.
문서 기반 대화 생성을 위한 개선된 타겟 증강 및 자가 가이드된 응답 생성
이정두 전북대학교 일반대학원 2023 국내석사
Many works on dialogue systems have developed a knowledge-grounded dialogue system to incorporate knowledge into dialogue. MultiDoc2Dial is a realistic task that dialogue flow shifts relevant grounding content among different documents dynamically in a conversation. In this paper, we employ a pipeline system of retriever, re-ranker, generator. We propose an improved target-side data augmentation approach that narrows the gap in the decoding procedure between train and inference. Furthermore, we propose multi-task learning, which includes grounding span and dialog act prediction, as a single sequence generation for document-grounded dialogue generation. We evaluate our methods on the validation set of MultiDoc2Dial dataset, obtaining state-of-the-art results on both seen and unseen settings. 최근 지식을 대화에 통합하는 지식 기반 대화 시스템에 대한 많은 연구가 이루어진다. MultiDoc2Dial은 대화 흐름에 따라 서로 다른 문서에 기반한 대화가 이루어지는 현실적인 태스크이다. 본 논문에서는 retriever, re-ranker, generator의 파이프라인 시스템을 사용한다. 우리는 디코딩 단계에서 훈련과 추론 사이의 차이을 좁히는 개선된 target 측 데이터 증강 방법을 제안하고 또한, 문서 기반 대화 생성을 위한 단일 시퀀스 생성으로 grounding span 및 dialog act 예측을 포함하는 다중 작업 학습을 제안한다. MultiDoc2Dial 데이터 세트의 validation 데이터 상에서 우리가 제안한 방법론을 평가한 결과 seen setting과 unseen setting 모두에서 State-of-the-Art 성능을 달성하였다.