RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 샴 네트워크를 이용한 한국어 저자 판별 모델 연구

        최지명 연세대학교 대학원 2023 국내박사

        RANK : 237375

        저자 판별이란 임의의 문서가 있을 때 그 문서의 언어적, 문체적 특징을 통해 실제 글을 쓴 사람을 찾아내는 것을 말한다. 이 때 통계 모델이나 머신러닝, 최근에는 딥러닝 알고리즘을 이용한 모델을 구축하여 판별을 실시한다. 다학제적 성격을 가진 저자 판별은 디지털 인문학, 법언어학, 사이버 보안 등 다양한 분야에서의 응용 가능성을 가지고 있어 중요한 연구 분야 중의 하나이다. 특히 인터넷을 통한 커뮤니케이션이 활발한 시대에서 인터넷 공간에서 발생할 수 있는 여러 종류의 부정 행위들을 텍스트를 이용한 디지털 포렌식 방법으로 탐지하고 용의자를 식별하는 것은 범죄 예방을 통한 건강한 사이버 공간을 만드는 데 있어 중요하다. 이러한 배경에서 본 연구의 목적은 딥러닝 모델의 하나인 샴 네트워크 모델을 이용하여 한국어로 된 온라인 텍스트, 그 중에서도 블로그(평균 길이 299어절)와 인터넷 커뮤니티 텍스트(평균 길이 99어절)를 대상으로 실제 상황에서 작동 가능한 수준의 저자 판별 모델을 구축하는 것이다. 샴 네트워크 모델은 두 개의 문서를 입력 받아 각각의 인코더를 통해 임베딩을 생성하여 두 문서간의 유사성과 차이를 학습하는 임베딩 생성 모델이다. 즉 일반적인 분류 모델처럼 샘플과 레이블의 관계가 아니라 샘플들간의 관계를 학습하는 거리 학습법이므로 학습하지 않은 새로운 데이터에 대한 원샷 러닝(one-shot learning)을 가능하므로 얼굴 인식이나 지문 인식 등의 이미지 인식 분야에서 뛰어난 성능을 보여주었다. 본 연구는 다음과 같은 연구 문제를 제시하고 샴 네트워크 기반의 모델을 이용하여 이를 해결해 보고자 하는 과정이다. 첫째, 저자의 수가 최소 수백 명 이상인 소셜 미디어 텍스트에 대응하는 한국어 저자 판별 모델을 만들 수 있는가. 둘째, 학습을 하지 않은 새로운 데이터에도 적응할 수 일반화 성능을 가진 모델을 만들 수 있는가. 이는 소셜 미디어라는 데이터의 특성상 모델의 학습시에 후보가 될 수 있는 모든 저자들의 텍스트를 빠짐없이 구하지 못 할 가능성이 높기 때문이다. 셋째, 저자들의 텍스트 샘플의 수가 적거나 저자별로 불균등한 불완전 데이터로도 학습이 가능한 모델을 만들 수 있는가. 넷째, 용도에 따라 개별 모델을 만드는 것이 아니라 여러 용도에 범용적으로 사용할 수 있는 모델을 만들 수 있는가. 본 연구에서 설계한 샴 네트워크 모델은 하나의 텍스트에서 네 종류의 n-grams 정보를 추출하고 이 네 개의 정보를 하나의 임베딩으로 나타내는 다채널 인풋 인코더(multi-channel encoder) 두 개와, 이 인코더를 통해 생성되는 임베딩들간의 동일 여부를 판정하는 이진 분류기로 구성되어 있다. 즉 모델의 학습은 두 개 인코더가 생성한 임베딩간 관계를 학습하는 과정이다. 이 모델의 성능은 n-way 분류 성능, 임베딩 모델의 임베딩 생성 성능, 검증 및 식별 평가 등 다양한 방식으로 평가하여 위 연구 문제들에 대응할 수 있는지를 확인해 보았다. 평가에 사용한 데이터는 최소 244명에서 최대 1,500명의 저자를 포함하고 있다. 먼저 샴 네트워크 모델의 학습 정도와 기본적인 성능을 확인할 수 있는 n-way 분류 평가에서는 5-way 기준으로 약 82% – 96%의 분류 성능을 보였고, n의 수가 커질수록 성능이 조금씩 하락하였다. 특히 100어절 미만의 길이가 아주 짧은 텍스트로 학습한 인터넷 커뮤니티 모델은 61% – 69%의 성능을 보여 텍스트의 길이가 성능에 큰 영향을 미침을 알 수 있었다. 클래스당 샘플의 수를 기존 학습 데이터 대비 10% 수준으로 줄이거나 클래스당 샘플의 수의 분포가 불균등한 데이터로 학습했을 때에도 비슷한 성능을 유지하였다. 이는 이 모델이 불완전한 학습 데이터에 대해서도 강건함을 가지고 있음을 보여주는 것이다. 이미 학습이 완료된 모델을 필요한 특정 데이터로 추가 학습하는 것도 가능했는데, 추가 학습한 클래스들에 대한 분류 성능이 특히 향상되었음을 알 수 있었다. 다음으로 임베딩 생성 모델의 성능을 평가하기 위해 임베딩 클러스터링과 임베딩 기반의 분류 모델의 성능 평가를 실시하였다. PCA–t-SNE 알고리즘을 이용하여 인코더 모델이 생성한 문서 임베딩들이 군집을 잘 이루는지 확인해 본 결과, n-way 분류 평가와 유사한 성능 패턴을 보였다. 즉 검증 데이터 > 평가 데이터 > 미학습 데이터의 순으로 군집이 잘 이루어졌고, 인터넷 커뮤니티 모델보다는 블로그 모델의 성능이 더 우수하였다. 이는 생성된 임베딩을 분류 모델의 입력값으로 사용하여 성능을 평가한 결과에서도 확인할 수 있었다. 마지막으로 개별 문서에 대응할 수 있는 1:1 검증과 1:N 식별 성능 평가를 실시하였다. 1:1 검증 평가에서는 동일 저자와 서로 다른 저자를 결정하는 확률 임곗값을 0.5로 설정했을 때 정확도가 73% – 96%, F1 점수는 0.69 – 0.95 수준으로 나타났으며, 이 때 재현율보다는 정밀도가 조금 더 높아 저자 검증 목적에 적합한 성능을 보임을 알 수 있었다. 가장 난이도가 높은 1:N 평가에서는 블로그 모델이 최소 52%(314명 미학습 데이터)에서 최대 91%(547명 검증 데이터)의 성능 분포를 보였고, 인터넷 커뮤니티 모델은 최소 21%(244명 미학습 데이터)에서 최대 57%(1000명 검증 데이터)의 성능을 보여 블로그 모델보다는 성능이 많이 낮게 나타났다. 그러나 모델의 추론 결과를 정렬하여 상위 k번째 내에 정답이 있을 확률을 평가하는 top-k 평가에서는 보다 좋은 성능을 보였다. 이 방법은 실제 상황에서처럼 후보군의 범위를 축소하여 조사 범위를 줄이기 위한 목적으로 사용할 수 있다. 모든 데이터셋에서 k = 20일 때의 성능은 최소 70%, 최대 98%의 정확도를, k = 40일 때에는 최소 83%, 최대 99%의 성능을 보였다. 위 실험들을 통해 본 연구에서 제안한 모델이 실제 상황에서도 적용 가능한 모델임을 알 수 있었다. 첫째로, 저자 판별과 같이 클래스의 수가 많고 클래스당 샘플의 수는 적은 상황에서 안정적인 성능을 보여주었다. 이를 n-way 평가와 1:N 평가를 통해 적게는 214 명, 많게는 1,500 명에 이르는 저자를 대상으로 판별 성능을 확인한 결과를 통해 알 수 있었다. 둘째로, n-way 성능 평가를 통해 샴 네트워크 기반의 이 판별 모델이 학습하지 않은 새로운 데이터에 대해서도 추론을 할 수 있는 원샷 러닝 능력을 보임으로써 일반화 성능을 어느 정도 가지고 있음을 확인할 수 있었다. 셋째로, 학습 데이터의 양이나 균형성 등의 측면에서 학습 데이터가 불완전하더라도 모델 학습이 가능하다는 것을 알 수 있었다. 이와 함께 새로운 클래스에 대한 추가 학습이 필요할 때 기존 모델을 처음부터 다시 학습하여 새 모델을 만드는 대신, 추가되는 데이터만 이용하여 모델을 추가 학습시키는 것이 가능하다는 것도 알 수 있었다. 이는 실제 온라인에서 얻을 수 있는 데이터의 유형이나 양을 고려하면 중요한 장점이다. 마지막으로 하나의 모델을 필요에 따라 여러 방식으로 활용할 수 있다는 것도 여러 유형의 평가를 통해 알 수 있었다. 이 모델은 기훈련된(pre-trained) 언어 모델처럼 입력 문서에 대해 임베딩을 생성할 수 있으므로, 문체적 특징을 반영한 일종의 저자 언어 모델이라고도 볼 수 있다. 특히 다양한 유형의 특징 세트들의 조합을 통해 저자의 스타일을 보다 정교하게 포착하여 하나의 임베딩으로 표현할 수 있으므로 BERT와 같은 대규모 언어 모델이 가질 수 없는 설명 가능한 저자 언어 모델(authorial language mod-el)로서의 범용성을 가질 수 있다. 본 연구에서 제안한 모델은 모든 평가에서 높은 성능을 보였고 데이터와 평가 조건의 난이도에 따라 예상할 수 있는 성능 변화 패턴을 보여주었다. 특히 서로 다른 평가들에서 모두 일관된 결과를 보여주었는데 이는 모델의 신뢰성과 안정성을 보여주는 증거라고 할 수 있다. 이러한 결과를 바탕으로 본 연구의 모델을 다양한 영역에서 활용 내지 응용할 수 있다. 먼저, 디지털 인문학 분야에서 활용하는 것이 가능하다. 디지털화된 역사적 텍스트 중에서 아직까지 저자가 누구인지 밝혀지지 않은 것들이 많이 있는데, 저자 판별 기법으로 이러한 중요한 정보를 복원할 수 있다. 다음으로, 인터넷 공간에서의 사이버 범죄의 증거를 수집·추적하기 위한 법언어학적 목적으로 사용할 수 있다. 이는 인터넷 보안의 문제와도 관련된 문제이기도 하다. 마지막으로, 표절 여부 포착, 그리고 학습자 식별과 관련하여 교육 분야에서도 활용할 수 있다. 즉 온라인에서 대규모로 이루어지는 학습 시스템에서 평가를 하거나 학습 진도를 확인하는 과정에서 부정 행위를 탐지하는 수단으로도 사용될 수 있다. Authorship attribution or identification is the process or method of finding out who wrote the text whose owner is unknown only using the linguistic and stylistic features. A model using a statistical modelling, machine learning, or, more recently, deep learning algorithms is built to solve the attribution problem. Authorship attribu-tion, which has a multidisciplinary nature, has become one of the important research fields in recent years, because it has potential applications in various areas such as digital humanities, forensic linguistics, and cybersecurity. In particular, in an era where communication through the Internet is commonplace, detecting various types of criminal acts in the Internet space with a digital text forensic method, and identi-fying a suspect can play a crucial role in crime prevention and creation of a healthy cyberspace. Against this background, this study aims to build an authorship attribution model that can be operated in real situations, being applied to social media texts in Korean, especially blog and Internet community texts, using the Siamese network model, one of the deep learning models. The Siamese network model is an embedding genera-tion model that learns similarities and differences between two documents by gener-ating embeddings through two encoders after receiving two documents. It is one of the distance metrics which learns the relationship between the two documents as two samples, not that between a document and a label like a common classification model. This characteristic enables one-shot learning on new data that has not been learned before, allowing Siamese network models to produce excellent performance in image recognition tasks such as face recognition, fingerprint recognition, and handwriting recognition. This study explores the following research questions by using a Siamese net-work-based model. First, is it possible to create an authorship attribution model that can cope with Korean social media texts with at least hundreds and up to thousands of authors to discriminate? Second, is it possible to create a model with generaliza-tion performance that can adapt to new data that has not been seen? This is because, due to the nature of social media data, it is highly likely that a complete set of texts produced by all possible candidate authors are not available when learning the mod-el. Third, is it possible to create a model capable of learning even with incomplete data where the number of text samples of an author is small, or the numbers of samples are uneven across authors? Fourth, is it possible to create a multi-faceted model that can be used for various purposes, rather than creating individual models for each purpose? The Siamese network model designed in this study consists of an encoder mod-ule and a binary classifier module. The encoder module extracts four types of n-grams information from texts and represents these four types of information as one embedding through multi-channel encoders, and then the binary classifier module determines if the two document embeddings are identical or not. The model learning is the process of learning the relationship between the embeddings generated by two encoders. The learned model was evaluated in various ways, such as the n-way clas-sification performance test, embedding generation performance test, verification and identification performance test, to see how well it performs in dealing with the re-search questions outlined above. The datasets used for evaluation include a mini-mum of 244 and a maximum of 1500 authors. First, in the n-way classification test, which checks how well the Siamese model is trained and evaluates the overall performance of the model, the classification per-formance was about 82% – 96% based on the 5-way standard while the perfor-mance decreased slightly as the number of n increased. In particular, the Internet community model trained with very short texts(≤100 tokens) showed a lower per-formance of 61% – 69%, indicating that the length of the text had a significant ef-fect on the model performance. The level of performance remained stable even when the number of samples per class was reduced to only 10% of the existing training data or when learned with data with an uneven distribution of the number of samples per class. This shows that the model is robust to incomplete training data. It was also possible to additionally train the model that had been trained with other data, and it was found that the classification performance for additionally trained classes particularly improved. Next, the quality of the embedding was evaluated by measuring how well the generated document embeddings form clusters, and how common classification models using these embeddings as inputs predict classes well). When using the PCA-t-SNE algorithm, the document embeddings were found to cluster well, showing a performance pattern similar to that of the n-way classifica-tion test above. That is, the clustering was well established in the order of verifica-tion data > evaluation data > untrained data with the performance of the blog model being superior to the Internet community model. This was also confirmed in the per-formance test of the classification models using the embeddings as inputs. Finally, the 1:1 verification and 1:N identification tasks that can respond to a single docu-ment in question were conducted. In the 1:1 verification test, when the probability threshold for determining whether it is by the same author or different authors was set to 0.5, the accuracy was 73% – 96% and the F1 scores was 0.69 – 0.95. Higher precision scores than recall scores indicate the suitability of the model for the pur-pose of authorship verification. In the 1:N identification task, which is the most dif-ficult, the blog model showed a success rate of a minimum 52% (314 authors of untrained data) to a maximum of 91% (547 authors of untrained data), and the In-ternet community model produced a performance level of at least 21% (244 authors of untrained data) up to 57% (1000 authors of verification data), showing much lower performance than the blog model. However, it showed much better perfor-mance in the top-k evaluation, which estimates the probability of the correct answer being in the top kth of the inference result. This can be used for the purpose of re-ducing the scope of investigation in real situations by reducing the range of candi-dates to investigate. In all datasets, the performance when k = 20 showed a mini-mum accuracy of 70% and a maximum of 98%, and when k = 40, the accuracy ranged from a minimum 83% to a maximum of 99%. The results of the experiments show that the model proposed in this study is ap-plicable to real situations. First, the model produced stable performance in situations where the number of classes is large but the number of samples per class is small, such as a typical authorship attribution. This was confirmed through the inference performance evaluations for as few as 214 authors and as many as 1,500 authors using the n-way and 1:N tests. Second, through the n-way performance test, it was confirmed that the Siamese network-based attribution model has a one-shot learning ability to make inferences on untrained data, and thus has generalization perfor-mance above a certain level. Third, it was found that model training is possible even if the training data is incomplete in terms of the amount or class balance. In addi-tion, when additional training is required for new classes, it was found that it is pos-sible to additionally train the existing model simply by inputting the required data to be learned instead of creating a new model by retraining it from scratch. This is a significant advantage considering the type or amount of data that can be obtained on-line in the real world. Finally, several types of evaluations have shown that the model can be used in diverse ways depending on the need. Since this model can generate embeddings for input documents like a pre-trained language model, it can be seen and used as an authorial language model that reflects authors' stylistic fea-tures. The model captures an author's style more elaborately through combining fea-ture sets of various types and expresses it as an embedding, so it can have versatility as an explainable authorial language model that large-scale language models such as BERT and GTP lack. The model proposed here showed high performance in all evaluation tests along with predictable performance patterns according to the difficulty levels of data and evaluation conditions. All of the different evaluations showed consistent results, which is the evidence of the reliability and stability of the model. The model with these characteristics can be utilized or applied in various areas. First, it is possible to utilize it in the field of digital humanities. Among the digitized historical texts, there are still many whose authors are unknown. Authorship attribution techniques can recover this important but vacant information. Next, it can be used for forensic pur-poses to collect and track evidence of cybercrime in the Internet space, which is also linked to the issue of the Internet security. Finally, it can also be used in the field of education for plagiarism detection and learner identification. It can specially be ef-fective in a mass online learning system as a means of identifying the individual participants and detecting cheating in the process of checking and assessing learning progress.

      • 초거대 언어 모델을 활용한 감정 분석 연구

        장연지 연세대학교 대학원 2024 국내박사

        RANK : 237375

        본 연구는 한국어 처리를 위한 감정 유형을 기반으로 감정 말뭉치를 구축하여 다양한 언어 모델로 한국어의 감정 분석 성능을 평가하고, 감정 데이터 생성 및 평가를 통해 초거대 언어 모델의 감정 분석 능력을 이해하고자 하는 데 목적이 있다. 이를 위해 언어 처리의 관점에서 한국어 처리에 적합한 감정 유형에는 어떤 것들이 있는지 알아보고 GoEmotions와 KOTE의 감정 유형을 분석하여 최종적으로 12개의 감정 유형을 설정하였으며, 이를 기반으로 총 30,000건의 감정 주석 말뭉치를 구축하였다. 다음으로 구축된 감정 말뭉치를 활용하여 BERT 기반의 언어 모델인 KcBERT, RoBERTa, KoELECTRA, KcELECTRA와 GPT 기반의 언어 모델인 GPT-3.5와 GPT-4의 한국어 처리 및 감정 분석 성능을 평가하고, 이를 통해 언어 모델이 예측하기 쉬운 감정 유형과 어려운 감정 유형을 파악해 보았다. 또한, GPT-3.5를 활용하여 새로운 감정 데이터를 생성하고 이를 정량적 및 정성적으로 평가하여 언어 모델의 감정 데이터 생성 및 이해 능력을 분석해 보았다. 정성 평가는 3인의 평가자가 진행하였으며, 평가자들 간의 IAA는 상당한 일치도를 보여 평가 결과의 신뢰성을 입증하였다. 본 연구에서는 다양한 방법론을 적용하여 감정 말뭉치를 평가하고 각 모델들이 어떠한 상관 관계를 가지고 있는지 파악하는 과정을 통해 BERT 기반의 언어 모델보다 GPT 기반의 초거대 언어 모델이 문장의 맥락을 더 고려하여 감정을 인식하고 있음을 확인하였다. 이를 통해 언어 모델이 감정을 인식할 때 인간의 감정 인식 방법과 유사하게 복합적인 감정 유형이 필요하며, 맥락을 충분히 고려하여 감정을 인식할 수 있는 모델의 개발이 필요하다는 것을 확인하였다. 평가 과정에서 발견된 오류나 부족한 점을 바탕으로 감정 말뭉치의 품질을 개선하여 보다 풍부하고 다양한 감정 말뭉치를 구축하는 것은 언어 모델 학습에 좋은 자료가 될 뿐만 아니라 언어 모델의 성능 개선에도 도움이 될 것이며, 고객 서비스, 감정 및 정서 분석, 소셜 미디어 모니터링, 챗봇 서비스 등 다양한 산업 분야에서 응용될 수 있다. 또한, 향후 인간과 기계의 보다 자연스러운 소통을 인간적이고 섬세하게 만드는 데 기여할 것이다.

      • 한국어 복합문 분할 방안 연구

        윤승 연세대학교 대학원 2001 국내석사

        RANK : 237359

        한국어 정보 처리 기술의 발전에 따라 핵심 기술에 관한 연구의 무게 중심이 형태소 분석에서 구문 분석으로 옮겨지고 있다. 본고는 구문 분석 과정에서 나타나는 구조적인 중의성을 감소시키는 역할을 하는 한국어 복합문 분할 방안에 관해 연구하였다. 이 연구는 한편으로 기초 자료 구축 연구에 응용될 수 있기도 하다. 1장에서는 복합문 분할의 필요성을 제기하고 복합문 분할이 한국어 정보 처리에서 어떤 의미를 갖는지에 대해 알아보았다. 그리고 언어학에서는 복합문을 어떻게 정의하고 있으며 또 복합문은 어떻게 분류할 수 있는지를 기술했다. 그리고 본고에서는 종속절, 대등절, 명사절, 부사절, 인용절, 관형절을 복합문 분할의 대상으로 삼고 있다는 것을 밝혔다. 또한 지금까지 어떠한 연구들이 있었는지에 대해서도 조사하였다. 2장에서는 복합문을 많이 포함하고 있는 텍스트 장르 중심으로 말뭉치를 구성하기 위해 미리 열두 가지 텍스트 장르로 실험 말뭉치를 구성해서 어떠한 텍스트 장르에 복합문이 많이 포함되어 있는지를 조사해 보았다. 여기서 신문, 잡지 등에 복합문이 많이 포함되어 있고 편지, 수필 등에 복합문이 적게 포함되어 있다는 것을 알 수 있었다. 그리고 말뭉치에서 복합문을 어떻게 검색해낼 수 있는지도 알아보았다. 3장에서는 2장에서 구성된 말뭉치를 대상으로 복합문의 구성 비율을 조사하고 이와 함께 말뭉치에서 추출한 문장을 대상으로 수작업으로 복합문의 구조를 조사해 이 둘을 함께 비교하였다. 이 과정에서 관형절, 특히 관계관형절과 종속절, 대등절이 복합문에서 높은 비율을 보인다는 것을 알 수 있었고, 또 자동 태깅된 정보를 이용해 조사된 복합문 구성과 수작업으로 조사된 복합문 구성은 보조적 연결 어미의 경계가 모호하다는 문제 때문에 부사절, 종속절, 대등절의 비율에서 일부 차이가 발견된다는 것을 알 수 있었다. 4장에서는 관형절이 어떠한 중의성을 유발하는지를 살펴본 후 이러한 중의성 때문에 복합문 분할 대상이 일부 축소될 수밖에 없음을 설명했다. 그리고 복합문 분할에 필요한 분할점을 정의하고 실제로 복합문을 분할할 수 있는 알고리즘을 제안했다. 알고리즘이 어떻게 동작하는지도 예문을 통해 나타내었다. 5장에서는 제안된 알고리즘을 평가하기 위한 실험 문장 목록을 만들고 분할 결과를 평가할 수 있는 방법을 제시하였다. 그리고 실제 실험 결과를 통해 제안된 알고리즘의 장점과 단점을 살펴보고 어떠한 문제들이 오류를 발생시키는지도 조사하였다. 본 연구를 통해 한국어에 복합문이 많이 포함되어 있고 중요한 역할을 한다는 것을 알 수 있었다. 그리고 이를 분할할 수 있는 방법을 제시함으로써 구문 분석과정에서의 부담을 덜 수 있도록 하고 추출된 단문을 기초자료 구축에 이용할 수 있도록 하였다. With the development of information processing technology in the Korean language, the focus in studying on core technology has been moved from on the morphological analysis to the parsing. This study presents a research on how to divide complex sentences of the Korean language, and the suggested division methods are supposed to avail themselves to decrease the potential of structural ambiguity appearing in the process of parsing and to be applied in a research of establishing basic data. In Chapter 1, the necessity of dividing complex sentences was given a consideration, and what kinds of meaning the work has in a Korean information processing were sought after. It was also acknowledged that what is the definition of a complex sentence and what are the classifications of it in the respect of linguistics. Chapter 1 also provided the objects of the complex sentence division used in this study. They were subordinate, coordinate, noun, adverb, quotative, and attributive clauses. Finally it includes an examination on what studies had been carried out in the field by then. Chapter 2 was dedicated to making up experiment corpus in twelve text genres and to investigating which text genre has the most complex sentences. The experiment corpus was particularly composed out of those text genres that had a lot of complex sentences. The results say that newspapers and magazines possess many complex sentences while letters and essays do less than them. The final touch of the Chapter 2 came with the work to see how to search a complex sentence among corpus. Chapter 3 presents the composition ratio of complex sentences out of the corpus made up in Chapter 2. The results were compared with those of manual investigation of structures of complex sentences sampled among the corpus. The findings include the two following facts: first, there was a rather high ratio of attributive clauses, especially relative attributive clauses, subordinate clauses, and coordinate clauses in complex sentences. Second, the composition of a complex sentence examined by hand showed a difference in the ratio of adverb, subordinate, and coordinate clauses from that of examined with automatically tagged data due to the vague boundary of auxiliary connecting endings. In Chapter 4, attributive clauses were examined to see what kinds of ambiguity they bring about. And it was explained that the objects of complex sentence division couldn't help being reduced in part because of the ambiguity. And Chapter 4 includes the division points necessary to divide complex sentences and an algorithm which can be actually applied to dividing complex sentences. Some example sentences were used to demonstrate how the algorithm worked. Finally, an experiment sentences list was drawn to evaluate the above suggested algorithm, and a few methods that can be used in evaluating the division results were provided in Chapter 5. Furthermore, an actual experiment was carried out to find out what were the strengths and weaknesses of the suggested algorithm and what problems caused errors. The results of this study say that the Korean language has many complex sentences and they do play an important role. Methods to divide complex sentences were suggested in order to lessen the burden involved in the parsing process and to make the sampled simple sentences available in establishing basic data.

      • 역사 자료 형태분석에서 미등록어 추정과 분석 중의성 해소

        방진우 연세대학교 대학원 2017 국내석사

        RANK : 237359

        Research on the historical data corpus has a long history. Although the researchers of the history of Mandarin have mastered a lot of digital Mandarin historical data, they can’t make good use of them through digital operations of computer. At present, there are many historical data corpora, including Sejong historical data corpus, collected by institutions and individuals. But when compared with the constructions of corpora and researches on other fields, the R&D work of utilizing these corpora efficiently has obvious deficiencies. This research’s purpose is to research and develop the historical data of the original corpus analysis tool. The R&D of historical data lexical analyzer is not only beneficial for obtaining the vocabulary data which used to research the historical data vocabulary quickly, but can also cut down the expense. Meanwhile, it benefits the compilation and R&D of Korean history dictionary. To achieve the research purposes above, this research takes the printed ancient novels corpus with almost 1.6 million basic rhythmic units and the analysis result (formal analysis) of it as first data to compile the dictionary, which is the basis of the R&D of vocabulary analysis. The first chapter mainly focuses on the scale of the constructed historical data corpus and its usage situation. The second chapter focuses on the existent basic approaches of tagging and morphological analysis and the research situation of historical data. And there will be an introduction of these historical data used in this research. The third chapter mainly introduces the construction and method of dictionary used for vocabulary analysis. Dictionary is mainly composed of language dictionary, grammar dictionary, Stem dictionary and appellations dictionary, and the dictionaries can be updated. These dictionaries can be used to deal with unknown words, and the part that can’t be dealt with can be improved accurately by perfecting dictionary. The forth chapter is based on Hidden Markov Model and explains how to eliminate the vocabularies’ lexical ambiguity by Viterbi algorithm. In the process of eliminating the lexical ambiguity, the stochastic model has been constructed. When the frequentness is zero, smoothing is used to reduce the effect on the result. The fifth chapter discusses the construction and usage of historical data lexical analyzer system. The sixth chapter mainly introduces the result of lexical analyzer’s analyze. 역사 자료 말뭉치에 대한 분석은 예전부터 많이 진행되어온 작업이다. 그간 국어사 연구자들은 상당량의 전자화된 국어 역사 자료를 갖고 있었지만 컴퓨터가 인식하고 전산처리를 하여 유용하게 쓰도록 하지는 못하였다. 현재 세종 역사 자료 말뭉치를 포함하여 여러 기관과 개인이 소장하고 있는 역사 말뭉치는 적지 않다. 하지만 구축한 말뭉치에 비해 이 말뭉치들을 효과적으로 사용할 수 있는 도구에 대한 연구는 다른 분야의 연구에 비해 그렇게 활발히 진행되지 못하였다. 본 연구에서는 역사 자료 원시 말뭉치 어휘 분석이 가능한 도구의 개발을 목표로 하였다. 어휘적 연구를 목표로 한 역사 자료 형태 분석기를 개발함으로써, 역사 자료 어휘 연구에 활용할 수 있는 어휘 자료를 보다 쉽고 빨리 확보할 수 있고 소요되는 비용도 줄일 수 있을 것이다. 아울러 한국어 역사 사전의 개발에도 도움을 줄 수 있을 것이라고 기대한다. 이를 위해 본 연구에서는 약 160만 어절의 활자본 고소설 말뭉치와 그를 대상으로 분석한 결과인 형태분석말뭉치를 1차자료로 사용하여 사전을 구축하였고 이 구축된 사전으로 어휘 분석 개발을 진행하였다. 1장에서는 현재까지 구축된 역사자료 말뭉치의 규모와 그 활용실태에 대하여 살펴보았다. 2장에서는 태깅과 형태 분석의 기본 방법 및 역사 자료를 대상으로 한 선행 연구에 대해 살펴봄과 동시에 본 연구에서 사용된 연구 자료에 대해 소개를 하였다. 3장에서는 형태 분석기용 사전의 구축과 활용방식에 대해 소개하였다. 사전은 어절 사전, 문법부 사전, 어간부 사전, 호칭 사전으로 구성되어 있으며, 사전을 갱신할 수 있게 만들었다. 사전들은 미등록어의 처리에 활용되며 처리가 안되는 부분은 사전을 계속 보완해가는 방법으로 정확도를 높여주도록 하였다. 4장에서는 은닉마르코프 모델에 기반하고 Viterbi알고리즘을 통한 중의성 해소 과정에 대해 설명하였다. 중의성 해소 과정에 사용된 확률 모델을 구축하였고, 빈도가 0인 경우가 결과에 미치는 영향을 줄이기 위해서 스무딩방법을 사용하였다. 5장에서는 역사자료 형태 분석기의 시스템 구성과 사용방법에 대해 논의하고, 6장에서는 형태 분석기로 분석한 결과를 서술하였다.

      • 한국형 법률 AI 모델 개발을 위한 벤치마크 설계 및 평가 방안 연구

        강예지 연세대학교 대학원 2024 국내박사

        RANK : 237359

        본 논문은 국내 법률 도메인에 특화된 초거대 언어 모델(LLM)의 부재를 인식하고 한국형 법률 LLM의 개발을 위해 현존하는 6개의 서로 다른 LLM 모델들의 법률 분야에 대한 전문성을 면밀히 평가하고 깊이 있는 비교 분석을 수행함으로써, 한국어 법률 전문 LLM 개발을 위한 필수적인 요소들을 확인하고 이를 모델 개발 과정에 효과적으로 통합할 수 있도록 기반을 마련하고자 하였다. 연구에서는 국내외 주요 초거대 언어 모델인 ChatGPT, BING, Claude, Llama2, CLOVA-X, ChatKoAlpaca를 평가 대상 모델로 삼아 법률 전문 능력의 수준을 확인하였으며, 평가 대상 모델에 대한 평가를 위해 법률 도메인 특화 평가 체계를 새롭게 설계하였다. 평가는 정량 평가, 법률 전문가에 의한 정성 평가, 생성형 AI 모델을 이용한 자동 평가로 진행되었다. 정량 평가에는 생성 텍스트와 참조 텍스트 간 유사도를 평가하는 BERTScore 와 BLEURT Score 를 이용하였으며, 전문가 평가의 경우 새롭게 정의한 법률 도메인 특화 평가 지표를 바탕으로 3점 척도로 평가하도록 하였고, 마지막으로 LLM을 통한 자동 평가는 정성 평가와 동일한 조건하에 GPT-4를 이용하여 3점 척도로 평가하도록 하였다. 정량 평가 결과 ‘BING, CLOVA-X, Llama2, ChatGPT, Claude, ChatKoAlpaca’순으로 BERTScore가 높게 나타났으며, ‘Claude, ChatKoAlpaca, ChatGPT, BING, Llama2, CLOVA-X’순으로 BLEURT Score 가 높게 나타났는데, 이처럼 두 지표로부터 나타난 상이한 결과를 전문가의 정성 평가를 통해 검증하였다. 전문가의 정성 평가 결과 ‘CLOVA-X, ChatGPT, BING, Claude, ChatKoAlpaca, Llama2’순으로 높은 성능을 보였는데, 이러한 결과는 BERTScore 의 정량 평가 결과와 비슷한 경향성을 나타냈다. 한편 GPT-4에 의한 자동 평가 결과는 ‘ChatGPT, Llama2, CLOVA-X, BING, ChatKoAlpaca, Claude’순으로 높은 점수가 부여되었다. 이를 통해 GPT-4는 동일 계열의 ChatGPT의 결과를 가장 선호하는 경향을 보이며, 정성 평가와도 유사한 평가 기준을 삼고 있었지만, 일부 모델이나 지표에 대해서는 정성 평가 및 정량 평가와 상이한 결과를 보이거나 평가를 회피하는 경향을 보임으로써 LLM 에 의한 자동 평가가 인간 평가를 대체하는 것에는 여전히 한계가 있음을 확인하였다. 한편, 연구에서는 한국어 법률 태스크를 포함하는 인스트럭션 데이터셋을 구축하여 경량화 모델에 인스트럭션 튜닝하고 그 성능도 평가하였는데, 그 결과 제한된 모델과 태스크 설정, 소량의 인스트럭션 데이터셋 사용으로 인해 높은 성능을 보이는 데에는 한계가 있었다. 본 연구는 국내외 정립되지 않은 법률 특화 LLM 평가 지표를 설계하였다는 점과 이를 활용하여 모델의 정량적 및 정성적 평가를 면밀히 진행하였다는 점에서 의의가 있다. 이는 앞으로 법률 분야의 LLM 평가 기준을 설정하는 데 있어 표준으로 자리매김할 것이다. 또한 연구에서는 한국형 법률 LLM의 발전 방향을 생성 결과의 평가와 LLM 개발의 두 측면으로 나누어 네 가지 주요 도전 과제를 제안함으로써 한국형 법률 LLM 개발에 기여할 것이라 기대한다. Recognizing the absence of a Korean legal domain-specific large language model (LLM), this paper aimed to develop a Korean legal LLM by carefully evaluating the legal expertise of six different existing LLM models and conducting an in-depth comparative analysis to identify essential elements for the development of a Korean legal LLM and to lay the foundation for effectively integrating them into the model development process. In this study, prominent global and domestic large language models (LLMs) like ChatGPT, BING, Claude, Llama2, CLOVA-X, and ChatKoAlpaca were evaluated for their legal expertise using a newly designed legal domain-specific evaluation system. The evaluation involved quantitative methods using BERTScore and BLEURT Score, qualitative analysis by legal experts, and automated evaluation with generative AI models, specifically GPT-4. Quantitative results varied, with BERTScore rating 'BING, CLOVA-X, Llama2, ChatGPT, Claude, and ChatKoAlpaca' highest, and BLEURT Score ranking 'Claude, ChatKoAlpaca, ChatGPT, BING, Llama2, and CLOVA-X' highest. These results were cross-verified with expert qualitative assessments. Experts rated 'CLOVA-X, ChatGPT, BING, Claude, ChatKoAlpaca, Llama2' as the highest performers, aligning with the BERTScore trend. However, automated evaluation by GPT-4 showed a preference for similar models like ChatGPT and paralleled qualitative evaluations, but differed in some cases, highlighting the limitations of LLM-based automated evaluations in replacing human judgment. Additionally, the study involved creating an instruction dataset with Korean legal tasks for fine-tuning lightweight models, but limited model and task settings, along with a small dataset, resulted in suboptimal performance. This research is noteworthy for its creation of specialized legal metrics for Large Language Model(LLM) evaluation, a pioneering development both domestically and internationally. The study employed these metrics in a comprehensive and detailed manner, conducting both quantitative and qualitative evaluations of the LLMs. This innovative approach is poised to set a new benchmark for LLM evaluation standards in the legal domain. Additionally, the research delineates four critical challenges, categorically divided into two key areas: evaluation outcomes and LLM development. This strategic framework significantly advances the progression and refinement of Korean legal LLMs, marking a notable contribution to the field.

      • 키프레이즈 데이터셋 기반 패러프레이즈 추출과 검증 연구

        강혜린 연세대학교 대학원 2021 국내석사

        RANK : 237359

        Two or more sentences that convey similar meanings using different language expressions are called paraphrase, which are essential parts of learning for machines to better understand human language. Since the recognition of various paraphrase expressions is directly related to the performance of the natural language processing(NLP) application system, its importance is increasing. To improve the performance of the application system, a good quality corpus to train the model is required. However, the currently released Korean paraphrase corpus is very insufficient, and in the case of the open-source paraphrase corpus, it is difficult to keep updated information on new paraphrase expressions. Also, there is a limitation in that a refinement process must be continuously performed until the final paraphrase sentence pair is found. Therefore, this paper proposed a new methodology called a keyphrase dataset for paraphrase extraction that can easily add various paraphrase expressions and minimize the refinement process. The keyphrase dataset combines the concept of extracting a paraphrase based on a named entity and that sentences in a paraphrase relationship will share the same or similar keyphrase. The keyphrase dataset is expressed in a hierarchical structure consisting of the first classification named entity, the second classification named entity, and the third classification keyphrase. In this paper, after selecting the article text as the named entity for the article text, the first classification named entity and the second class named entity were selected in consideration of the semantic relationship, and TextRank, LDA, and Kr-WordRank were used to construct the third class keyphrase. Thus, a keyphrase was constructed. The paraphrase was extracted by combining the first, second, and third classifications in the keyphrase dataset, and the extracted sentence pairs were collected to construct a paraphrase corpus. To secure the validity of the keyphrase dataset methodology proposed in this paper, a paraphrase evaluation process was performed to calculate the similarity between sentences using the Doc2Vec model. As a result, it was confirmed that the paraphrase extraction method based on the keyphrase dataset was effective in finding sentence pairs with high semantic similarity. 다른 언어 표현을 사용하여 유사한 의미를 전달하는 두 개 이상의 문장을 패러프레이즈(paraphrase)라 하는데 이는 기계가 인간의 언어를 보다 더 잘 이해하기 위해서는 반드시 학습용 자원으로 구축할 필요가 있다. 다양한 패러프레이즈 표현에 대한 인식이 자연어 처리 응용 시스템의 성능과 직결되기 때문에 그 중요성이 더욱 커지고 있다. 응용 시스템의 성능 향상을 위해서는 모델을 학습시킬 양질의 말뭉치가 필요하다. 그러나 한국어 패러프레이즈 말뭉치는 매우 부족하며 공개된 패러프레이즈 말뭉치의 경우 새로운 패러프레이즈 표현에 대한 정보가 계속해서 업데이트되기에는 어러운 점이 있다. 또한 최종 패러프레이즈 문장 쌍을 찾는 데까지 계속해서 정제 과정을 거쳐야 한다는 한계점이 있다. 본 논문은 다양한 패러프레이즈 표현의 추가가 용이하며 여러 단계의 정제 과정을 최소화할 수 있는 패러프레이즈 추출을 위한 키프레이즈 데이터셋이라는 새로운 방법론을 제안하였다. 키프레이즈 데이터셋이란 개체명 기반의 패러프레이즈 추출과 패러프레이즈 관계에 있는 문장은 서로 유사한 키프레이즈를 공유할 것이라는 개념을 접목시킨 것이다. 키프레이즈 데이터셋은 1차 개체명 분류, 2차 개체명 분류, 3차 키프레이즈 분류로 구성된 계층 구조로 표현된다. 본 논문에서는 기사문을 대상으로 하여 개체명으로 기사문을 선정한 후에 의미 관계를 고려하여 1차 개체명 분류와 2차 개체명 분류를 선정하였으며 3차 키프레이즈 분류 구성을 위해 TextRank와 LDA, Kr-WordRank를 활용하여 키프레이즈를 구성하였다. 키프레이즈 데이터셋 내의 1차, 2차, 3차 분류를 조합하여 패러프레이즈를 추출하고 추출된 문장 쌍을 모아 패러프레이즈 자원을 구축하였다. 본 논문에서 제안한 키프레이즈 데이터셋 방법론의 타당성 확보를 위하여 Doc2Vec 모델을 이용하여 문장 간의 유사도를 계산하는 패러프레이즈 검증의 과정을 거쳤다. 그 결과 키프레이즈 데이터셋을 기반으로 한 패러프레이즈 추출 방법이 의미적으로 유사도 높은 문장 쌍을 찾는 데에 효과적이었음을 확인하였다.

      • 시퀀스-투-시퀀스 기반 한국어 추상 의미 표상(AMR) 파싱 연구

        Huang, Hao 연세대학교 대학원 2023 국내석사

        RANK : 237343

        본 연구는 그래프 기반 의미 표상 프레임워크인 추상 의미 표상(AMR; Abstract Meaning Representation)을 중심으로 진행된 것으로, 데이터 구축 측면에서 한국어 <어린 왕자> AMR 말뭉치의 구축, 데이터 활용 측면에서는 다언어 병렬 말뭉치 분석과 한국어 AMR 파싱 연구를 수행하는 것으로 주된 목적이다. 본 연구에서는 1,562문장, 11,215어절 규모의 한국어 <어린 왕자> AMR 말뭉치를 구축하였다. 한국어 의미역 의존 자원을 확장해서 용언 프레임 미등재어 비율이 11.48%나 개선되어 4.07%까지 낮추었다. AMR 주석 대상 텍스트를 영어, 중국어, 포르투갈어 등과 정렬해서 병렬 말뭉치 구성할 수 있도록 주석하였다. 구축된 말뭉치에서 의미 개념 표상 10,791개 , 관계 표지 주석 9,948개를 포함하고 있다. 또한 병렬 말뭉치 비교 분석을 통해 수사의문문, 접사가 가진 의미에 대한 한국어 AMR 주석의 현지화 문제를 논의하였다. 구축된 AMR 데이터와 2020년 공개된 AMR 데이터 함께 2,781 문장 규모의 데이터셋을 Sequence-to-sequence 방법론 기반 한국어 AMR 파싱에 적용해 보았다. Transformer 모델 기준으로 Smatch F1-score 0.30의 성능을 기록하였고 KoBART 사전학습 모델을 이용하여 Fine-tune해서 Smatch F1-score 0.56의 성능을 달성하였다. This study has focused on Abstract Meaning Representation (AMR), a graph-based semantic representation framework. In terms of data construction, the Korean <Little Prince> abstract meaning representation (AMR) corpus was constructed. In terms of data utilization, cross-lingual parallel corpus analysis and the Korean AMR parsing task was performed. In this study, the Korean <Little Prince> AMR corpus with 1,562 sentences and 11,215 words was constructed. By expanding the resources of Korean semantic roles, unregistered predicate frame ratio was improved by 11.48%, lowering it to 4.07%. The annotation target text was aligned with English, Chinese, and Portuguese et al. to annotate parallel AMR corpus. The constructed corpus includes 10,791 semantic concepts representations and 9,948 relations annotations. In addition, through a comparative analysis of parallel corpus, the problem of Korean AMR localization on representing meaning of Korean rhetoric and suffixes was discussed. Together with the constructed AMR data and the AMR data released in 2020, applied 2,781 sentence-scale dataset to Korean AMR parsing. The performance of parsing model based on the basic Transformer was recorded by Smatch F1-score 0.30, and the performance of parsing model by using the pre-trained model KoBART and fine-tuning achieved Smatch F1-score 0.56.

      • 한국어 교육용 대화 시스템 개발을 위한 화행 판별 자질 연구

        한지윤 연세대학교 대학원 2018 국내석사

        RANK : 237343

        The aim of this paper is to classify the dialogue act of user response utterances for the development of a dialogue system for Korean language education and to select what features are appropriate for efficiently discriminating such utterances. This paper proposes a dialogue tag set that classifies the learner's utterance intent to develop a chat bot dialog system designed to enable Korean learners to practice Korean conversation. In order to classify the utterances automatically according to these tag set, I examine what features are suitable for the conversation system made for Korean education among the discriminant features used in the previous research. For this purpose, a corpus for Korean language education was collected to annotate the discriminant features and dialogue act. Based on the annotated corpus, we selected the dialogue act tags that can be used in the dialogue system for Korean language education. Rather than the traditional linguistic works, the discriminant features were chosen for practical use in the dialogue system for practicing Korean conversation. In case of the discriminant features, the features that can be commonly used in both rules base – d automatic classification and statistics-based automatic classification are selected and analyzed. The first chapter presents the purpose and background of this study. After examining the discussions related to the speech, second chapter the scholarly works on the automatic classification method. Furthermore, this chapter analyze the corpus used in the previous research after summarizing the discriminant features used in the study. The third chapter provides the design and collection of dialog corpus to be used in the dialogue system for Korean language education. The fourth chapter analyses the collected response speech data. The conclusion part gives the results of this study and future issues. 본고의 연구 주제는 한국어 교육 목적의 대화 시스템 개발을 위하여 사용자 응답 발화의 화행을 분류하고, 이러한 화행을 효율적으로 판별하는 데 적합한 자질이 무엇인지를 선별하는 것이다. 본고는 한국어 학습자들이 한국어 회화를 연습할 수 있도록 고안된 챗봇 대화 시스템에 입력된 학습자의 발화 의도를 파악하고 분류하는 화행 표지 체계를 제안한다. 또한, 이러한 화행 표지에 맞춰 발화를 자동으로 분류하기 위하여 기존에 화행 자동 분류 연구에서 이용된 화행 판별 자질 중 한국어 교육 목적 대화 시스템에 적합한 자질이 무엇인지 검토한다. 이를 위하여 한국어 교육용 대화 말뭉치를 구축하여 화행과 화행 판별 자질을 주석하였다. 주석된 말뭉치를 바탕으로 한국어 교육 목적의 대화 시스템에서 활용 가능한 화행 표지를 선정하였고, 화행 판별 자질과 화행 간의 연관도를 검토하여 각 화행별로 유의미한 화행 판별 자질을 추출하였다. 화행 표지는 전통적인 언어학에서의 화행과는 별개로 한국어 회화를 연습하기 위한 대화 시스템에서 실용적으로 활용할 수 있는 표지를 선택하였다. 화행 판별 자질의 경우 규칙 기반 자동 분류 모델과 통계 기반 자동 분류 모두에서 공통으로 활용할 수 있는 자질을 선정하여 그 특성을 분석하였다. 서론에서는 본 연구의 목적과 배경, 의의에 대해서 논한다. 관련 연구에서는 화행과 관련된 논의를 살펴본 후, 화행 자동 분류 방식에 대한 연구의 흐름에 대해서 탐구하면서 이러한 연구에서 활용된 화행 판별자질에 대하여 정리한 뒤 기존의 연구에서 활용된 말뭉치에 대하여 분석한다. 3장에서는 한국어 교육 목적의 대화 시스템에서 사용될 대화 말뭉치의 설계와 구축에 대하여 논의하고 4장에서는 수집된 응답 발화 데이터를 분석하여 화행별로 유의미한 화행 판별 자질을 선별한다. 결론에서는 본 연구의 성과와 추후 과제에 대하여 논한다.

      • 생성형 인공 지능의 한국어 호칭 생성 평가 및 개선

        안지윤 연세대학교 대학원 2024 국내석사

        RANK : 237343

        본 연구는 생성형 인공 지능에서의 한국어 호칭의 올바른 생성 여부를 확인하고 올바른 생성이 이루어지지 못한 경우, 프롬프트 엔지니어링 기법을 통해 올바른 호칭 생성이 이루어지도록 하는 데 목표가 있다. 본 연구는 생성형 인공 지능 CLOVA X와 ChatGPT를 대상으로 한국어 호칭 ‘언니’, ‘누나’, ‘오빠’, ‘형’의 생성이 정확히 이루어지고 있는지를 파악하였다. 한국어 호칭 ‘언니’, ‘누나’, ‘오빠’, ‘형’은 성별, 나이, 친밀도에 따라 달라질 수 있다. 따라서 페르소나 기법을 적용하여 성별, 나이, 친밀도에 따른 역할을 설정한 후, 역할에 적합한 호칭 생성이 이루어지고 있는지를 살폈다. 정확한 호칭 생성이 이루어지지 못한 경우에는 Zero Shot, One Shot, Few Shot, Chain of Thought (CoT), Zero Shot CoT 기법을 적용하여 정확한 한국어 호칭을 생성할 수 있도록 하였다. In this study, we evaluated Korean title generation in generative Artificial Intelligence (AI). We focused on only two generative AI systems: CLOVA X and ChatGPT. Specifically, we evaluated whether they were correctly generating the following Korean titles: “언니(Unni),” “누나(Noona),” “오빠(Oppa),” and “형(Hyeong).” We applied the persona technique to set roles based on gender, age, and intimacy. We then examined whether the titles appropriate for the roles were created. In cases where the correct title generation was not achieved, Zero Shot, One Shot, Few Shot, Chain of Thought (CoT), and Zero Shot CoT techniques were applied to create the correct Korean titles.

      • GRU 적용에 따른 독일어-영어 신경망 기계 번역 성능 측정 및 최적화 분석

        이충희 연세대학교 대학원 2019 국내석사

        RANK : 237343

        Machine translation has been rapidly developed by deep learning. There are three kinds of machine translation which are RBMT, SMT and NMT. Currently, NMT is used and well known that NMT has better performance than RBMT and SMT. Especially, NMT has excellent performance in context understanding, which means that deep learning is used to understand context and translate. However, NMT algorithm is in black box, so it is hard to know exactly which conditions are good to optimize performance in. In addition, there are many things to consider about performance optimization, even in GNMT. In the beginning, we discussed the purpose and background of this study. And we studied the definition of machine translation, kinds of machine translation and related works to NMT through Google Translate. Then, when using GRU, we evaluated its performance, the least learning time and loss value to figure out optimal condition. As a result, the more embedding size and batch size we got, the less learning time and loss value we got. It got pretty closer to optimal condition by fine-tuning, but we cannot expect optimal performance as much as we want. That is, there are limitations on using only fine-tuning to optimize performance. Also, it is necessary to consider many kinds of approaches such as using pytorch-nlp or TensorFlow2.0 libraries etc. 자연어 처리(NLP) 분야 중 한 분야인 기계 번역(MT)은 딥 러닝(DL)이라는 기술에 힘입어 비약적인 발전을 이룬 분야 중 하나이다. 기계 번역(MT)은 크게 규칙기반 기계 번역(RBMT), 통계기반 기계 번역(SMT), 그리고 신경망 기계 번역(NMT) 등 세 가지 종류로 구분할 수 있다. 현재, 사용되고 있는 방식은 신경망 기계 번역(NMT)으로 기존 통계기반 기계 번역(SMT)이나 규칙기반 기계 번역(RBMT)보다 성능이 뛰어난 것으로 알려져 있다. 특히, 신경망 기계 번역(NMT)은 딥 러닝(DL) 방식을 이용하여 문맥을 파악하기 때문에 기존 방식들보다 우수한 번역 결과를 얻을 수 있다. 그러나 블랙박스 형태로 되어 있어 신경망 기계 번역(NMT)의 성능이 어떠한 조건에서 최적화를 이루는지 구체적으로 알기 어려운 상황이다. 여기에 성능 최적화와 관련하여 고려해야 할 부분이 많다. 가장 많이 사용되고 있는 구글 번역기에서도 아직 개선해야 할 부분이 많다고 할 수 있다. 서론에서는 연구 목적, 배경 및 의의에 대하여 논하고. 본론에서는 기계 번역(MT)의 정의와 종류, 신경망 기계 번역(NMT) 관련 연구 등에 대하여 살펴보았다. 이어 순환 신경망(RNN) 계열인 GRU를 사용했을 때 성능을 측정하고, 이 때 최소 학습시간, loss 값 등을 측정하여 이와 관련한 최적화 조건을 찾고자 하였다. 결론에서는 측정 결과를 바탕으로 각 수치들이 보이는 양상을 제시하였는데, 전체적으로 embedding size와 배치 사이즈(batch size)를 단계적으로 늘릴수록 학습 시간과 loss 값이 줄어드는 것으로 나타났다. fine-tuning을 통하여 최적화 조건에 어느 정도 근접하였으나, fine-tuning만으로는 우리가 원하는 만큼의 최적화된 성능을 기대하기 어렵다는 한계를 보였으며, pytorch-nlp와 향후 정식 공개될 TensorFlow2.0 라이브러리를 이용하는 등 다양한 관점에서 접근할 필요가 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼