RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 한국어 교육용 대화 시스템 개발을 위한 화행 판별 자질 연구

        한지윤 연세대학교 대학원 2018 국내석사

        RANK : 232330

        The aim of this paper is to classify the dialogue act of user response utterances for the development of a dialogue system for Korean language education and to select what features are appropriate for efficiently discriminating such utterances. This paper proposes a dialogue tag set that classifies the learner's utterance intent to develop a chat bot dialog system designed to enable Korean learners to practice Korean conversation. In order to classify the utterances automatically according to these tag set, I examine what features are suitable for the conversation system made for Korean education among the discriminant features used in the previous research. For this purpose, a corpus for Korean language education was collected to annotate the discriminant features and dialogue act. Based on the annotated corpus, we selected the dialogue act tags that can be used in the dialogue system for Korean language education. Rather than the traditional linguistic works, the discriminant features were chosen for practical use in the dialogue system for practicing Korean conversation. In case of the discriminant features, the features that can be commonly used in both rules base – d automatic classification and statistics-based automatic classification are selected and analyzed. The first chapter presents the purpose and background of this study. After examining the discussions related to the speech, second chapter the scholarly works on the automatic classification method. Furthermore, this chapter analyze the corpus used in the previous research after summarizing the discriminant features used in the study. The third chapter provides the design and collection of dialog corpus to be used in the dialogue system for Korean language education. The fourth chapter analyses the collected response speech data. The conclusion part gives the results of this study and future issues. 본고의 연구 주제는 한국어 교육 목적의 대화 시스템 개발을 위하여 사용자 응답 발화의 화행을 분류하고, 이러한 화행을 효율적으로 판별하는 데 적합한 자질이 무엇인지를 선별하는 것이다. 본고는 한국어 학습자들이 한국어 회화를 연습할 수 있도록 고안된 챗봇 대화 시스템에 입력된 학습자의 발화 의도를 파악하고 분류하는 화행 표지 체계를 제안한다. 또한, 이러한 화행 표지에 맞춰 발화를 자동으로 분류하기 위하여 기존에 화행 자동 분류 연구에서 이용된 화행 판별 자질 중 한국어 교육 목적 대화 시스템에 적합한 자질이 무엇인지 검토한다. 이를 위하여 한국어 교육용 대화 말뭉치를 구축하여 화행과 화행 판별 자질을 주석하였다. 주석된 말뭉치를 바탕으로 한국어 교육 목적의 대화 시스템에서 활용 가능한 화행 표지를 선정하였고, 화행 판별 자질과 화행 간의 연관도를 검토하여 각 화행별로 유의미한 화행 판별 자질을 추출하였다. 화행 표지는 전통적인 언어학에서의 화행과는 별개로 한국어 회화를 연습하기 위한 대화 시스템에서 실용적으로 활용할 수 있는 표지를 선택하였다. 화행 판별 자질의 경우 규칙 기반 자동 분류 모델과 통계 기반 자동 분류 모두에서 공통으로 활용할 수 있는 자질을 선정하여 그 특성을 분석하였다. 서론에서는 본 연구의 목적과 배경, 의의에 대해서 논한다. 관련 연구에서는 화행과 관련된 논의를 살펴본 후, 화행 자동 분류 방식에 대한 연구의 흐름에 대해서 탐구하면서 이러한 연구에서 활용된 화행 판별자질에 대하여 정리한 뒤 기존의 연구에서 활용된 말뭉치에 대하여 분석한다. 3장에서는 한국어 교육 목적의 대화 시스템에서 사용될 대화 말뭉치의 설계와 구축에 대하여 논의하고 4장에서는 수집된 응답 발화 데이터를 분석하여 화행별로 유의미한 화행 판별 자질을 선별한다. 결론에서는 본 연구의 성과와 추후 과제에 대하여 논한다.

      • The Construction of a Korean Pre-Trained Model and an Enhanced Application on Sentiment Analysis

        이상아 서울대학교 대학원 2021 국내박사

        RANK : 52121

        최근 트랜스포머 양방향 인코더 표현 (Bidirectional Encoder Representations from Transformers, BERT) 모델에 대한 관심이 높아지면서 자연어처리 분야에서 이에 기반한 연구 역시 활발히 이루어지고 있다. 이러한 문장 단위의 임베딩을 위한 모델들은 보통 학습 과정에서 문장 내 어휘, 통사, 의미 정보를 포착하여 모델링한다고 알려져 있다. 따라서 ELMo, GPT, BERT 등은 그 자체가 다양한 자연어처리 문제를 해결할 수 있는 보편적인 모델로서 기능한다. 본 연구는 한국어 자료로 학습한 단일 언어 BERT 모델을 제안한다. 가장 먼저 공개된 한국어를 다룰 수 있는 BERT 모델은 Google Research의 multilingual BERT (M-BERT)였다. 이는 한국어와 영어를 포함하여 104개 언어로 구성된 학습 데이터와 어휘 목록을 가지고 학습한 모델이며, 모델 하나로 포함된 모든 언어의 텍스트를 처리할 수 있다. 그러나 이는 그 다중언어성이 갖는 장점에도 불구하고, 각 언어의 특성을 충분히 반영하지 못하여 단일 언어 모델보다 각 언어의 텍스트 처리 성능이 낮다는 단점을 보인다. 본 연구는 그러한 단점들을 완화하면서 텍스트에 포함되어 있는 언어 정보를 보다 잘 포착할 수 있도록 구성된 데이터와 어휘 목록을 이용하여 모델을 구축하고자 하였다. 따라서 본 연구에서는 한국어 Wikipedia 텍스트와 뉴스 기사로 구성된 데이터를 이용하여 KR-BERT 모델을 구현하고, 이를 GitHub을 통해 공개하여 한국어 정보처리를 위해 사용될 수 있도록 하였다. 또한 해당 학습 데이터에 댓글 데이터와 법조문과 판결문을 덧붙여 확장한 텍스트에 기반해서 다시 KR-BERT-MEDIUM 모델을 학습하였다. 이 모델은 해당 학습 데이터로부터 WordPiece 알고리즘을 이용해 구성한 한글 중심의 토큰 목록을 사전으로 이용하였다. 이들 모델은 개체명 인식, 질의응답, 문장 유사도 판단, 감정 분석 등의 다양한 한국어 자연어처리 문제에 적용되어 우수한 성능을 보고했다. 또한 본 연구에서는 BERT 모델에 감정 자질을 추가하여 그것이 감정 분석에 특화된 모델로서 확장된 기능을 하도록 하였다. 감정 자질을 포함하여 별도의 임베딩 모델을 학습시켰는데, 이때 감정 자질은 문장 내의 각 토큰에 한국어 감정 분석 코퍼스 (KOSAC)에 대응하는 감정 극성(polarity)과 강도(intensity) 값을 부여한 것이다. 각 토큰에 부여된 자질은 그 자체로 극성 임베딩과 강도 임베딩을 구성하고, BERT가 기본으로 하는 토큰 임베딩에 더해진다. 이렇게 만들어진 임베딩을 학습한 것이 감정 자질 모델(sentiment-combined model)이 된다. KR-BERT와 같은 학습 데이터와 모델 구성을 유지하면서 감정 자질을 결합한 모델인 KR-BERT-KOSAC를 구현하고, 이를 GitHub을 통해 배포하였다. 또한 그로부터 학습 과정 내 언어 모델링과 감정 분석 과제에서의 성능을 얻은 뒤 KR-BERT와 비교하여 감정 자질 추가의 효과를 살펴보았다. 또한 감정 자질 중 극성과 강도 값을 각각 적용한 모델을 별도 구성하여 각 자질이 모델 성능 향상에 얼마나 기여하는지도 확인하였다. 이를 통해 두 가지 감정 자질을 모두 추가한 경우에, 그렇지 않은 다른 모델들에 비하여 언어 모델링이나 감정 분석 문제에서 성능이 어느 정도 향상되는 것을 관찰할 수 있었다. 이때 감정 분석 문제로는 영화평의 긍부정 여부 분류와 댓글의 악플 여부 분류를 포함하였다. 그런데 위와 같은 임베딩 모델을 사전학습하는 것은 많은 시간과 하드웨어 등의 자원을 요구한다. 따라서 본 연구에서는 비교적 적은 시간과 자원을 사용하는 간단한 모델 결합 방법을 제시한다. 적은 수의 인코더 레이어, 어텐션 헤드, 적은 임베딩 차원 수로 구성한 감정 자질 모델을 적은 스텝 수까지만 학습하고, 이를 기존에 큰 규모로 사전학습되어 있는 임베딩 모델과 결합한다. 기존의 사전학습모델에는 충분한 언어 모델링을 통해 다양한 언어 처리 문제를 처리할 수 있는 보편적인 기능이 기대되므로, 이러한 결합은 서로 다른 장점을 갖는 두 모델이 상호작용하여 더 우수한 자연어처리 능력을 갖도록 할 것이다. 본 연구에서는 감정 분석 문제들에 대한 실험을 통해 두 가지 모델의 결합이 학습 시간에 있어 효율적이면서도, 감정 자질을 더하지 않은 모델보다 더 정확한 예측을 할 수 있다는 것을 확인하였다. Recently, as interest in the Bidirectional Encoder Representations from Transformers (BERT) model has increased, many studies have also been actively conducted in Natural Language Processing based on the model. Such sentence-level contextualized embedding models are generally known to capture and model lexical, syntactic, and semantic information in sentences during training. Therefore, such models, including ELMo, GPT, and BERT, function as a universal model that can impressively perform a wide range of NLP tasks. This study proposes a monolingual BERT model trained based on Korean texts. The first released BERT model that can handle the Korean language was Google Research’s multilingual BERT (M-BERT), which was constructed with training data and a vocabulary composed of 104 languages, including Korean and English, and can handle the text of any language contained in the single model. However, despite the advantages of multilingualism, this model does not fully reflect each language’s characteristics, so that its text processing performance in each language is lower than that of a monolingual model. While mitigating those shortcomings, we built monolingual models using the training data and a vocabulary organized to better capture Korean texts’ linguistic knowledge. Therefore, in this study, a model named KR-BERT was built using training data composed of Korean Wikipedia text and news articles, and was released through GitHub so that it could be used for processing Korean texts. Additionally, we trained a KR-BERT-MEDIUM model based on expanded data by adding comments and legal texts to the training data of KR-BERT. Each model used a list of tokens composed mainly of Hangul characters as its vocabulary, organized using WordPiece algorithms based on the corresponding training data. These models reported competent performances in various Korean NLP tasks such as Named Entity Recognition, Question Answering, Semantic Textual Similarity, and Sentiment Analysis. In addition, we added sentiment features to the BERT model to specialize it to better function in sentiment analysis. We constructed a sentiment-combined model including sentiment features, where the features consist of polarity and intensity values assigned to each token in the training data corresponding to that of Korean Sentiment Analysis Corpus (KOSAC). The sentiment features assigned to each token compose polarity and intensity embeddings and are infused to the basic BERT input embeddings. The sentiment-combined model is constructed by training the BERT model with these embeddings. We trained a model named KR-BERT-KOSAC that contains sentiment features while maintaining the same training data, vocabulary, and model configurations as KR-BERT and distributed it through GitHub. Then we analyzed the effects of using sentiment features in comparison to KR-BERT by observing their performance in language modeling during the training process and sentiment analysis tasks. Additionally, we determined how much each of the polarity and intensity features contributes to improving the model performance by separately organizing a model that utilizes each of the features, respectively. We obtained some increase in language modeling and sentiment analysis performances by using both the sentiment features, compared to other models with different feature composition. Here, we included the problems of binary positivity classification of movie reviews and hate speech detection on offensive comments as the sentiment analysis tasks. On the other hand, training these embedding models requires a lot of training time and hardware resources. Therefore, this study proposes a simple model fusing method that requires relatively little time. We trained a smaller-scaled sentiment-combined model consisting of a smaller number of encoder layers and attention heads and smaller hidden sizes for a few steps, combining it with an existing pre-trained BERT model. Since those pre-trained models are expected to function universally to handle various NLP problems based on good language modeling, this combination will allow two models with different advantages to interact and have better text processing capabilities. In this study, experiments on sentiment analysis problems have confirmed that combining the two models is efficient in training time and usage of hardware resources, while it can produce more accurate predictions than single models that do not include sentiment features.

      • 한국어 학습자의 {-었-} 사용 양상 연구

        장기남 영남대학교 대학원 2015 국내박사

        RANK : 2584

        국문초록 본 연구의 목표는 KSL(Korean as a Second Language) 학습자가 한국어의 시간 표현(Time Talk), 즉 시제(Tense)를 어떻게 사용하는지 고찰하는 데 있다. 그동안 제2 언어 습득(Second Language Acquisition) 분야에서는 제2 언어 학습자가 시간 표현(과거나 미래 표현)을 어떻게 습득(Acquisition)하는지에 관심을 두고 연구를 지속하여 왔다. ‘시상가설’(Aspect Hypothesis)은 그 대표적인 사례로서 많은 언어에서 동일한 양상으로 나타나는 것으로 밝혀져 범언어적인 현상으로 보고되고 있다. 본 연구는 이와 맥을 같이 하는 시도로서, 한국어를 제2 언어로 학습하는 경우에도 ‘시상가설(AH)’이 동일한 양상으로 나타나는지의 문제를 중심으로 하여, KSL 학습자의 한국어 시간 표현 사용 양상을 다양하게 고찰하였다. 본 연구에서는 한국어 학습자가 작성한 문어텍스트(작문)를 자료로 하였으며, 과거 표지 {-었-}이 출현해야 할 모든 용례를 추출하여 적절하게 사용되었는지 조사하고, 이러한 양상이 학습자의 수준, 시간부사(temporal adverbial)의 출현 여부, 용언의 의미 특성, 통사적 위치(종결형과 연결형) 등에 따라 어떻게 다른지 분석하였다. 본 연구에서 논의한 바를 요약하면 다음과 같다. 2장에서는 시간 표현에 관한 이론적 논의를 다루었다. 본 연구에서는 시제(tense)를 ‘직시적 범주(deictic category)로서 사건(event), 과정(process), 상황(state)의 시간적 위치를 나타내는 문법 범주’로 정의하였으며, 특정 시점을 기준으로 ‘과거:현재:미래’의 삼분 대립을 보이는 경우도 있으나, 선행 연구를 참고하여 한국어에서는 ‘과거:비과거’의 이분 대립으로 보이는 것으로 간주하였다. 또한, 시간부사어와 시제 간의 관련성에 대한 논의를 살펴보고, 이어서 학습자가 시상 형태소를 습득할 때 용언의 의미 특성이 습득 양상에 영향을 미친다는 시상가설을 소개하였다. 3장에서는 한국어 학습자들이 종결형에서 과거 표지 {-었-}을 어떻게 사용하는지 논의하였다. 정확도, 결합 용언의 다양성, 시간부사어의 출현 여부에 따른 차이, 그리고 용언의 의미적 특성에 따른 차이 등을 분석하였는데, 그 결과를 정리하면 다음과 같다. (1) 종결형에서 과거시제 표지 {-었-}의 사용 양상을 조사한 결과 상위 그룹은 89.75%의 정확도를 보였으며, 하위 그룹은 30.61%의 정확도를 보였다. 또한 상위 그룹은 238가지 동사(type)에 {-었-}을 총 710회(token) 사용하여 하나의 동사에 대해 평균 2.98회 사용한 반면, 하위 그룹은 83가지 동사 종류(type)에 {-었-}을 총 259회(token) 사용하여 하나의 동사에 대해 평균 3.12회 사용함으로써, 상위 그룹이 type 및 token 수도 많을 뿐만 아니라 type 당 token 수는 적게 나와, 하위 그룹에 비해 다양한 동사에 {-었-}을 사용하고 있음을 확인할 수 있다. 이는 상위 그룹의 경우 출현 빈도가 높은 80개 동사의 누적 빈도가 74.08%에 그쳤지만 하위 그룹의 경우에는 98.84%에 달했다는 사실, 그리고 1회만 출현한 동사의 수가 상위 그룹은 전체 동사의 55.4%에 이른 반면, 하위 그룹은 40.9%에 그친 점에서도 뒷받침된다. (2) 시간부사어(temporal adverbial)의 출현은 {-었-} 사용의 정확도에 다소 영향을 미친 것으로 나타났는데, 시간부사어가 있을 때의 정확도는 66.37%이며, 출현하지 않았을 때는 60.89%로서, 시간부사어의 출현이 {-었-} 사용의 정확도에 긍정적 영향을 미침을 알 수 있다. 수준별로는 상위 그룹의 경우 시간부사가 있을 때와 없을 때 정확도 차이가 2.95%, 하위 그룹의 경우에는 시간부사가 있을 때와 없을 때 정확도 차이가 3%를 보여, 상위 그룹과 하위 그룹에서는 차이가 적었으나, 중위 그룹에서 시간부사가 있을 때와 없을 때 정확도 차이가 8.63%를 보였다. 이는 시간부사어(temporal adverbial)의 출현이 {-었-}의 정확도에 전반적으로 큰 영향을 미치는 것은 아니며, {-었-}의 사용 수준이 높아지는 중간 단계에 영향을 미칠 수 있음을 시사하는 것으로 판단된다. (3) 동사의 의미 특성은 {-었-}의 사용 양상에 영향을 미치는 것으로 드러났다. 한국어 학습자들의 경우, ‘완성동사(accomplishment)>성취동사(achievement)>행위동사(activities)>심리동사(psych verb)>상태동사(states)’의 순서로 {-었-} 사용의 정확도가 높았다. 완성동사와 성취동사의 경우는 상위 그룹과 하위 그룹의 정확도 차이가 42% 정도이며, 행위동사 및 상태동사의 경우는 60% 이상 차이를 보였는데, 이러한 결과는 행위동사와 상태동사일 때 {-었-}이 더 늦게 습득됨을 시사하며, 한국어 시제 표지 {-었-} 습득의 경우에도 시상가설(AH)과 유사한 양상이 나타남을 말해 준다. 다만, ‘시상가설(AH)’에서는 과거시제 습득이 ‘성취동사’로부터 시작하여 점차 ‘상태동사’에 이를 것으로 예측하였는데, 본 연구의 결과는 완성동사와 성취동사가 거의 유사하게 나타났으며, 심리동사는 상태동사보다 정확도가 높았다는 점에서 차이를 보여 준다. 4장에서는 연결형(접속문)에서의 과거시제 표지 {-었-}의 사용 양상을 다루었다. 연결형에서는 {-었-}의 출현이 불가능한 경우와, 출현 여부가 의미 차이를 보이지 않는 경우, 출현 여부에 따라 의미가 다른 경우로 나누어 살펴보았는데, 이는 각각의 경우 {-었-}의 출현 Ph. D. Thesis A Study on the KSL Learners’ Use of Korean Past Tense Marker ‘-었/əss/-’ Gi-nam Jang Department of Korean Language Education as a Second Language Graduate School Yeungnam University (Supervised by Dong-ju Choi) Abstract The goal of this paper is to examine how learners of KSL (Korean as a Second Language) use the time-based expression (“Time Talk” or Tense). Most studies in the second language acquisition area have focused on how second language learners come to recognize time-based expressions (or tense). Aspect hypothesis (hereafter “AH”) is taken into consideration as a representative case in many languages to be understood as a cross linguistic phenomenon. The concept of this study is similar with AH, and focuses on the issues involved if AH is adopted by learners of KSL, and how they use time-based Korean expressions in multiple points of view. The data of this study are obtained from articles written by KSL learners and all data were examined to assure proper application. This study also attempted to analyze how the examined cases were differently adopted according to learners’ levels, appearance of temporal adverbial, meaning or characteristics of predicate, and syntax structure (conclusive type and connective type). This study can be summarized as follows; Theoretical discussion on temporal expression was dealt with in Chapter Two. This study specifically defined the term of tense as a grammatical category that shows a temporal position of event, process, and state as a role of deictic category. Although trichotomous antagonism of past, present, and future tenses was shown in some cases, it was regarded as a dichotomous antagonism of past, and ‘non-past’ from the reference of earlier research. In addition, this study addressed the relationship between temporal adverb and tense, introducing AH, in which semantic characteristics of predicate affects learners’ acquisition in learning Aspect (past tense expression of ‘-었/əss/-’). Chapter Three dealt with the issue of how learners of KSL use the past tense expression ‘-었/əss/-’. Accuracy, diversity of connective predicate, the different uses by the appearance of temporal adverbial, and the difference of the semantic characteristics of predicate, were addressed in this chapter. The results can be summarized as follows; (1) According to the survey on the aspect of past tense expression ‘-었/əss/-’ in the conclusive type, the advanced-level group shows an accuracy of 89.75% while the lower-level group shows an accuracy of 30.61%. Advanced learners used ‘-었/əss/-’ 710 times with 238 different verbs (which means 2.98 times with one verb on average), while lower-level learners used ‘-었/əss/-’ 259 times with 83 different verbs (which means 3.12 times of use with one verb on average). Advanced learners used ‘-었/əss/-’ in more verbs, more times, but less times per one verb, indicating they use ‘-었/əss/-’ in a greater variety of verbs. These results can be supported by the survey showing that cumulative frequency on 80 high frequency verbs was 74.08% in advanced learners, and 98.84% in lower-level learners. The proportion of verbs used once was 55.4% in advanced learners compared to 40.9% in lower-level learners. (2) The appearance of temporal adverbial seemed influential in accuracy of using ‘-었/əss/-’. The accuracy rate was 66.37% with temporal adverbial and 60.89% without temporal adverbial, which shows the appearance of temporal adverbial has a positive influence in the accurate use of ‘-었/əss/-’. Advanced learners and low-level learners have an accuracy gap of 2.95% and 3% respectively, while the intermediate level has an 8.63% gap. This result indicates that the appearance of temporal adverbial is not influential to the accuracy of ‘-었/əss/-’ overall, but it can be influential to intermediate learners whose language proficiency is higher than that of beginners. (3) The semantic characteristics of verbs can affect the use of ‘-었/əss/-’. The learners of KSL showed high accuracy in using ‘-었/əss/-’ in order of accomplishment verbs, achievement verbs, activity verbs, psych verbs and state verbs. There was a 42% gap in accuracy between the advanced group and the beginner group in the case of accomplishment verbs and achievement verbs, and there was a gap of over 60% in the case of activity verbs and state verbs. This result shows that learners may acquire the proper use of ‘-었/əss/-’ later with activity verbs and state verbs. The acquisition of Korean temporal expression of ‘-었/əss/-’ has similar aspects with AH. AH predicted that the acquisition of past tense can be acquired in order of accomplishment verbs and state verbs, however the result of this study showed similar accomplishment degree with those two verbs. Additionally, the learners showed higher accuracy in using psych verbs than with state verbs. Chapter Four dealt with the aspect of how the past tense expression of ‘-었/əss/-’ was used in a conjunctive sentence. There were three kinds of case studies because the appearance of ‘-었/əss/-’ has varied meanings. The ‘first case’, when the use of ‘-었/əss/-’ is not allowed; the ‘second case’, when there is no difference of meaning regardless of ‘-었/əss/-’; and the ‘last case’, when there is a difference of meaning with or without ‘-었/əss/-’. (1) In the ‘first case’, there were 38 uses of ‘-었/əss/-’ even though the use of ‘-었/əss/-’ was ungrammatical. These errors were caused by the failure to acquire the restrictions on the use of ‘-었/əss/-’ in the conjunctive sentence. However, it is a different case without ‘-었/əss/-’ in the past tense. In the ‘second case’, it is difficult to notice the difference, for the case is always correct regardless of ‘-었/əss/-’. Acc

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼