RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 기계 학습을 이용한 전이 기반 의미역 결정 및 임베딩 기반 관계 추출

        오준호 강원대학교 2016 국내석사

        RANK : 249710

        최근 모바일 환경의 발달로 인해 SNS(Social Network Service) 등으로 부터 생산되는 데이터의 양이 급격하게 늘어나면서 비정형(unstructured) 혹은 반정형(semi-structured) 문서로부터 의미 있는 정보를 찾기 위한 정보 추출(Information Extraction) 기술에 대한 연구가 진행되고 있다. 정보 추출은 자연 언어(Natural Language)에 대한 이해가 요구되며 자연 언어 처리(Natural Language Processing)를 위한 대한 많은 방법들이 연구되었다. 그러나 현재 자연 언어 처리 기술로는 자연언어를 완벽하게 이해할 수 없기 때문에 모든 문서로부터 원하는 정보를 찾기에는 다소 무리가 따른다. 하지만 신문 기사와 같이 제한된 도메인의 문서로부터 사건, 사고 등의 정보를 추출하는 것은 해당 응용에서 필요한 정보만 분석하면 된다. 이와 같이 완벽한 자연어의 이해가 요구되지 않는 수준의 정보 추출 방법들이 연구되어 왔다. 본 논문에서는 최근 자연 언어 처리 분야에서 핵심적인 영역으로 인식되고 있는 정보 추출 문제를 위하여 기계 학습 기반의 의미역 결정 및 관계 추출 연구를 수행한다. 먼저 의미역 결정 문제를 위하여 structural SVM을 이용한 전이 기반(transition-based)의 한국어 의미역 결정 시스템을 구축한다. 또한 전이 기반 파싱(Parsing) 알고리즘을 의미역 결정 문제에 알맞게 수정된 알고리즘을 사용하였으며, 의미역 결정 문제를 다중 분류(multi-classification) 문제로 바꾸어 학습 및 실험을 진행한다. 두 번째로, 한국어 관계 추출 문제를 위하여 딥러닝(Deep Learning)을 이용한 임베딩 기반(embedding-based)의 한국어 관계 추출 시스템을 구축하고, 학습 데이터의 부족 문제를 해결하기 위하여 distant supervision 방법을 기반으로 자동으로 구축한 학습 데이터를 말뭉치로 이용한다. 실험을 통하여 한국어 의미역 결정의 성능은 논항 인식/분류(AIC)에서 68.32%(F1)의 성능을 보였으며, 한국어 관계 추출의 성능은 84.15%(F1)의 성능을 보였다. Information extraction (IE) is an important part of natural language processing (NLP) finding meaningful information from unstructured or semi-structured machine-readable documents. There are three typical IE subtasks: named entity recognition (NER), coreference resolution (CR), relation extraction (RE). In spite of continual efforts to understand the natural language texts, however, it is still difficult to find the information what you want from all documents. Due to the difficulty of the problem, current approaches to IE focus on narrowly restricted domains. For example, Extracting accidents or events from the news articles and prices on the web pages are comparatively easy problem to solve with current technology. This paper focuses on the problem of learning to perform relation extraction (RE) and semantic role labeling (SRL) under the machine learning to treat information extraction problem. RE is sub-task of IE to assign relations between entities such as PERSON born in LOCATION(e.g. John was born in United States). RE also considers that entities have already been detected by a different process, such as a named-entity recognizer. SRL is another IE task to detect predicates in text, choose their correct senses, identify their associated arguments and predict the semantic roles of the arguments. First, We apply transition-based parsing algorithm for Korean semantic role labeling. For its learning, we use a structural SVM. Second, We adopt the embedding method for Korean relation extraction with deep learning. To solve the lack of learning data, we collect data under the distant supervision method. The experiments of SRL achieves 68.32%(F1) on argument identification/classification(AIC) and RE achieves 84.15%(F1).

      • 확장된 의미역 결정을 이용한 문서 유사성 판단

        이은지 조선대학교 일반대학원 2018 국내박사

        RANK : 233343

        문서의 재사용은 인터넷과 스마트폰의 보급으로 인하여 정보 콘텐츠의 디지털화 과정에서 두드러지게 나타나고 있으며, 단어의 삽입, 삭제 교체, 어순의 변경 등 복잡한 형태로 이뤄지고 있다. 특히, 문서 내의 단어가 같은 의미의 유사 단어로 교체되었을 때, 기존의 형태적 유사성 측정방법의 경우 유사성 측정의 대상으로 고려되지 않는다는 문제점이 있다. 이러한 문제를 해소하기 위해 유사도 측정에 대한 다양한 연구가 수행되어 왔다. 본 연구는 의미역 결정(semantic role labeling)을 이용하여 문장의 구조 분석을 기반으로한 의미적 유사성 측정방법을 제안한다. 의미역 결정은 구문 분석을 기반으로 문장 성분을 술어-논항(Predicate-Argument)구조로 분석하여, 각 문장 성분이 문장 내에서 맡고있는 의미 역할을 결정 및 태깅하는 작업을 말하며, 문서의 의미적 이해를 위해 기계 번역이나 질의응답시스템 등 다양한 분야에서 활용되고 있다. 문장의 술어-논항구조는 문장의 의미를 나타내는 중요한 성분으로 특정의미의 술어에는 필수적인 논항정보가 필요하게 되어, 유사한 의미의 문장 간에는 공통된 술어-논항정보가 사용되게 된다. 본 논문에서는 기존의 유사성 측정방법으로 검출하기 어려운 다시쓰기(paraphrasing)문장 등 변형이 많이 이루어진 유사 문장에 대한 검출 성능을 향상시키기 위해 의미역 결정을 이용하였다. 기존 의미역 결정 도구들은 기 구축된 언어자원에 기반하여 문서 분석을 수행하고 있으며, 언어자원의 범주에 따라서 문서 분석의 성능이 좌우된다. 본 논문에서는 기존 의미역 결정을 위한 언어자원 중 수작업으로 구축되어 높은 정확성을 갖으며, ‘술어’와 ‘논항’에 대한 의미 정보를 추가한 FrameNet을 활용하였으며, FrameNet의 자원 부족의 문제를 해소하기 위하여 FrameNet을 확장하는 과정을 수행하였다. 그 후, 확장된 FrameNet을 이용하여 두 문서에 의미역 결정을 수행을 통해 얻게 된 술어-논항정보를 문서의 유사성을 측정하기 위한 특징 정보로 선정하여, 두 문서 간의 유사성을 측정하는 과정을 수행하였다. 본 논문에서는 두 문서간 유사성을 측정하기 위해 확장된 FrameNet을 통해 얻게된 의미역 결정 정보를 이용하였으며, 제안된 방법의 성능평가를 위해 기존에 문서간 유사성 측정에 활용되고 있는 코사인 유사도, 부분 문자열 유사도와 비교를 통한 문서의 유사성 측정 방법과 비교하였다. 동일한 실험데이터에 제안된 유사성 측정 방식을 적용해 본 결과 본 논문에서 제안한 방법은 문서의 수정을 많이 가하지 않는 표절 문서에 대해서는 기존의 방법과 큰 성능의 차이는 없었지만, 단어의 변형, 문장 구조의 변형이 이루어진 다시쓰기 문장의 경우에는 기존의 방법들에 비해 개선된 결과를 확인 할 수 있었다. Reusing documents is very common in the process of digitalizing information contents thanks to the Internet and the popularity of smartphone, and is in the complicated form of word insertion, deletion and replacement, and word order change. In particular, where a word in a document is replaced by a similar word semantically the same, it is not considered as an object of measuring similarity in the conventional method for measuring morphological similarity. Therefore, it has been studied to measure similarity to solve the aforementioned problem. This study suggests a method for measuring semantic similarity, based on sentence structure analysis using semantic role labeling. Semantic role labeling is based on syntax analysis to analyze sentence elements in the Predicate-Argument structure, then determine and tag semantic roles of each sentence element in a sentence. It is used in various fields including machine translation or question-answering systems for semantic understanding of a document. Because the Predicate-Argument structure of a sentence is an important element showing the meaning thereof, and a predicate with a specific meaning requires essential argument information, common Predicate-Argument information is used for sentences with similar meaning. In this study, semantic role labeling is used to improve detection performance for similar sentences having many transformations, for example, paraphrasing not detected easily in the conventional similarity measurement methods. Conventional semantic role labeling tools conduct document analysis based on language resources already constructed, and document analysis performance depends on the category of language resources. In this study, FrameNet, one of conventional language resources for semantic role labeling, is used, which is manually constructed and very accurate, and to which the semantic information of ‘predicative’ and ‘argument’ is added. The process of extending FrameNet was conducted to address the issue of insufficient resources of FrameNet. The extended FrameNet is then used to select the predicative-argument information obtained through semantic role labeling for two documents as feature information for measuring document similarity and then measure similarity between two documents. In this study, semantic role labeling information is used, which is obtained through the extended FrameNet for measuring similarity between two documents. The result is then compared with the conventional methods for measuring similarity between documents by comparing it with cosine similarity and partial string similarity used for measuring similarity between documents. Application of the suggested method for measuring similarity to the same experiment data reveals that the method suggested in this study does not show much difference from the conventional methods for plagiarized documents in which the documents are not modified much, but implements better results than the conventional methods for paraphrased documents with modified words and sentence structure.

      • 딥 러닝을 이용한 한국어 의미역 결정

        배장성 강원대학교 2016 국내석사

        RANK : 233343

        의미역 결정은 문장의 각 서술어의 의미와 그 논항들의 의미역을 결정하여 “누가, 무엇을, 어떻게, 왜” 등의 의미 관계를 찾아내는 자연어처리의 한 단계이며 정보 추출, 문서 분류, 질의응답 시스템의 중간 과정으로 사용될 수 있다. 의미역 결정 연구는 크게 격틀사전에 기반을 둔 방법과 말뭉치에 기반을 둔 방법으로 나눌 수 있다. 최근 의미역 결정 연구에는 의미역 말뭉치와 기계학습 알고리즘을 이용한 연구가 주를 이루었다. Structural SVM과 같은 기계학습 알고리즘을 이용한 기존의 의미역 결정 연구는 사람이 고안한 자질을 입력으로 받고 반복적인 실험을 통해 입력 자질들의 최적의 가중치를 구한다. 그러나 각 자연어처리 모듈마다 적합한 자질을 설계하고 최적의 자질 조합을 구하는 것은 많은 시간과 노력을 필요로 하는데, 최근 이러한 문제점을 해결하기 위해 자질들을 높은 수준의 표현으로 추상화 시켜줄 수 있는 딥 러닝 기술이 기존 기계학습 알고리즘의 대안으로 떠오르고 있다. 따라서 본 논문에서는 여러 딥 러닝 모델을 한국어 의미역 결정에 적용하여 그 결과를 분석한다. 기존 의미역 결정 연구에서는 의미역 결정의 성능 향상을 위해 구문 분석 정보를 의미역 결정의 자질로 사용하였다. 하지만 구문 분석 정보의 사용은 의미역 결정 이전에 구문 분석을 수행해야 하는 비용이 발생하게 되고, 구문 분석 단계에서 발생하는 오류를 그대로 답습하게 되는 단점을 가지고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 구문 분석 정보를 제외하여 형태소 분석 정보만을 사용하는 end-to-end 방식의 한국어 의미역 결정 시스템을 제안하고 이를 Bidirectional LSTM-CRF 모델에 적용하여 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다. Semantic Role Labeling (SRL) is a basic step of natural language processing for semantic analysis of natural language text. The task of SRL system is to find “who, what, how, why”in natural language sentences by determining the semantic role labels of the arguments of the predicates in natural language sentences. Also SRL systems can be used in other natural language processing such as information extraction and question answering systems. SRL studies can be seperable two sides: one is a frame based method, the other is a corpus based method. Recently, the interest of SRL research is focused in corpus based method using machine learning algorithms. However, finding well designed features are expensive and time-consuming. Owing to this problem, Deep learning that models high-level abstractions is getting rised for altenative the existing machine learning algorithm. So, in this paper, we apply several deep learning models to korean semantic role labeling and analyze their results. Previous researches use syntactic information for improving the performance of semantic role labeling system. However, syntax analysis cause computational overhead and incorrect syntactic information. To solve this problem, we do not use the syntactic information and we only use the morpheme information. In this paper, we propose an end-to-end system using Bidirectional LSTM-CRF model. Our experimental results show that our proposed model has a better performance than traditional models.

      • 뉴럴 네트워크를 이용한 한국어 의미역 결정

        배장성 강원대학교 대학원 2022 국내박사

        RANK : 233343

        의미역 결정(semantic role labeling)은 자연어 문장에서 “누가, 무엇을, 어떻게, 왜” 등의 의미적 관계를 분석하는 자연어 처리의 한 응용이다. 의미역 결정은 자연어 처리의 의미 분석 단계에 해당하며 질의 응답과 정보 추출과 같은 다른 자연어 처리 응용의 주요 자질로 활용되고 있다. 최근 수년간 인터넷의 발달로 온라인 및 모바일 생활이 증가하며 기존 사람이 수행하던 고객 서비스를 비롯한 다양한 업무들이 자연어 처리 기반의 인공 지능 시스템으로 빠르게 대체되고 있으며 그 중요도가 날로 높아지고 있다. 이에 따라 의미역 결정 연구의 필요성 또한 날로 커져가고 있다. 과거 의미역 결정 연구는 구문 분석 정보와 얕은 기계 학습 모델을 이용한 연구가 많이 수행되었으나, 최근에는 뉴럴 네트워크(neural network)와 대량의 말뭉치(corpus)를 이용한 연구가 많이 수행되고 있다. 구문 분석 정보는 의미역 결정과 매우 밀접한 연관이 있어 지금까지도 많은 의미역 결정 연구에 사용되고 있지만 구문 분석 단계에서 발생할 수 있는 오류가 전파되는 문제점과 의미역 결정을 수행하기 이전에 구문 분석이 수행되어야 하는 문제점이 있다. 따라서 본 논문에서는 구문 분석 정보를 사용하지 않는 뉴럴 네트워크 기반 한국어 의미역 결정 모델을 제안하고 구문 분석 정보 없이도 한국어 의미역 결정을 잘 수행할 수 있음을 보인다. 언어 모델을 통해 학습되는 단어 임베딩(word embedding)은 자연어 문장을 컴퓨터가 계산할 수 있는 형태로 표현해주는 것으로 각 자연어 처리 응용 성능에 많은 영향을 미치게 된다. 최근 Bidirectional Encoder Representations from Transformer(BERT)라는 언어 모델이 등장하여 기존 언어 모델을 앞서는 성능을 보이고 있다. 이 모델은 적용되는 각 자연어 처리 응용에 따라 한 개 또는 두 개의 문장을 모델의 입력으로 사용한다. BERT 모델을 의미역 결정에 적용하는 여러 연구들은 이 모델의 입력으로 의미역을 결정할 한 개의 문장만을 모델의 입력으로 사용하고 그 외의 자질 정보는 BERT 모델의 출력과 함께 연결하여 다른 뉴럴 네트워크 모델의 입력으로 사용한다. 본 논문에서는 기존 연구들과 달리 두 개의 입력 문장 모두를 의미역 결정에 활용하는 방법을 제안한다. 제안된 방법은 BERT 모델의 두번째 입력 열에 격틀 사전(case-frame) 기반 의미 정보를 추가하여 기존 모델의 복잡도에 영향을 주지 않으며, 동시에 의미역 결정에서 가장 중요한 정보로 볼 수 있는 의미 정보를 모델의 입력으로 추가하여 의미역 결정 성능 향상이 가능하다. 실험을 통해 확인한 결과 제안된 방법은 한국어 의미역 결정과 영어 의미역 결정 모두에서 최신 기술보다 우수한 성능을 보였다. 뉴럴 네트워크와 같은 기계 학습을 이용한 의미역 결정 모델의 성능은 학습 말뭉치의 양에 의해 좌우된다. 그러나 한국어 의미역 말뭉치의 양은 영어 학습 말뭉치의 약 1/10에 불과하고 이로 인해 다소 낮은 성능을 보이고 있다. 이러한 문제점을 해결하기 위해 학습 말뭉치를 새로 만들 수 있지만, 이는 많은 비용과 시간이 필요한 문제점이 있다. 본 논문에서는 언어 모델을 활용해 자동으로 의미역 학습 말뭉치를 증강할 수 있는 방법을 제안한다. 제안한 방법은 시소러스(thesaurus)와 같은 외부 지식을 활용하는 기존 데이터 증강 방법보다 더 자연스러운 문장을 생성할 뿐만 아니라 의미역 결정에서 더 높은 성능 향상을 보였다. 결과적으로, 본 논문에서 제안한 한국어 의미역 결정 모델과 데이터 증강 방법이 의미역 결정 성능 향상에 큰 기여를 하고 있음을 알 수 있었다. Semantic role labeling (SRL) is an application of natural language processing that analyzes semantic relationships such as “who, what, how, and why” in natural language sentences. SRL corresponds to the semantic analysis stage of natural language processing, and is used as a key feature of other natural language processing applications such as question answering and information extraction. With the development of the Internet in recent years, online and mobile life has increased, and various tasks, including customer service, that were previously performed by humans are rapidly being replaced by Artificial Intelligence systems based on natural language processing, and their importance is increasing day by day. Accordingly, the need for SRL study is also increasing day by day. In the past, many studies have been conducted using syntax analysis information and shallow machine learning models, but recently, many studies have been conducted using neural networks and large corpus. Syntax analysis information is very closely related to SRL, so it is still used in many SRL studies, but there are problems in that errors that may occur in the parsing stage are propagated and that syntax parsing must be performed before SRL is performed. Therefore, in this paper, we propose a neural network-based Korean SRL baseline model that does not use syntax analysis information and show that Korean SRL can be performed well without syntax analysis information. Word embedding, which is learned through a language model, expresses natural language sentences in a form that can be calculated by a computer, which greatly affects the performance of each natural language processing application. Recently, a language model called Bidirectional Encoder Representations from Transformer (BERT) has emerged, surpassing the existing language model. This model uses one or two sentences as input to the model according to each natural language processing application applied. Several studies that apply the BERT model to SRL use only one sentence to determine the semantic role as the input of this model, and other feature information is connected with the output of the BERT model as the input of another neural network model. In this paper, unlike previous studies, we propose a method using two input sentences. The proposed method does not affect the complexity of the existing model by adding case-frame-based semantic information to the second input column of the BERT model. By adding it as an input, it is possible to improve the SRL performance. The proposed method showed better performance than the state-of-the-art in both Korean and English SRL. The performance of SRL models using machine learning such as neural networks depends on the amount of training corpus. However, the amount of corpus in the Korean semantic role is only about 1/10 of the English training corpus, which shows somewhat low performance. In order to solve these problems, a new training corpus can be created, but this has a problem that requires a lot of cost and time. In this paper, we propose a method for automatically augmenting a semantic training corpus using a language model. The proposed method not only generates more natural sentences than the existing data augmentation method that utilizes external knowledge such as thesaurus, but also shows a higher performance improvement in SRL.

      • Improving the Performance of Natural Language Deep Learning Models by Using Dimension Attribute Values

        Myeonghwa Lee DGIST 2021 국내석사

        RANK : 233242

        The field of NLP (Natural Language Processing) has been greatly developed in recent years with the help of deep learning technology. In particular, BERT-based deep learning models have been in the spotlight due to their outstanding performance. However, existing NLU (Natural Language Understanding) models are learning natural language only through contextual information without considering a latent characteristic that is inherent in natural language due to writers and environmental factors surrounding them. In order to take into account this characteristic hidden behind the context, by incorporating a concept of OLAP into NLP, we consider natural language text data as fact attribute values, and information such as time, locations and writers accompanying the creation of the text data as dimension attribute values. In this paper, we propose two methods that allow the use of dimension attribute values for learning natural language text data in BERT-based models. In addition, we introduce a record-based general-purpose corpus DBLP-RC built by ourselves to be used for pre-training our general-purpose NLU model (called OLAP-BERT), and record-based labeled datasets, DBLP-RDfSRL and DBLP-RDfCIC, also built by our-selves for fine-tuning the model with SRL (Semantic Role Labeling) task and CIC (Citation Intent Classification) task. In experiments conducted by setting vanilla BERT models as baselines, our OLAP-BERT model shows a better performance than the baseline models in both tasks. 자연어 처리 분야는 최근 몇 년간 딥러닝 기술의 도움을 받아 크게 발전되어 왔다. 특히, 최근에는 BERT 기반의 딥러닝 모델들이 그 우수한 성능으로 인해 크게 각광받고 있다. 하지만, 기존의 자연어 이해 모델들은 자연어가 내재하고 있는 생성 주체 및 환경적 요인들에 의한 차이를 고려하지 못하고 문맥 정보만을 통해 자연어를 학습하고 있다. 이러한 문맥 뒤에 가려진 자연어의 잠재적 특성들을 함께 고려하고자 OLAP 개념을 접목하여 자연어 텍스트를 Fact(사실) 속성값으로, 텍스트 데이터 생성에 수반된 시점, 지역, 주체 등의 정보를 Dimension(차원) 속성값으로 간주하고 이를 활용한다. 본 논문에서 우리는 BERT 모델을 기반으로 자연어 텍스트의 학습에 Dimension 속성값을 이용할 수 있는 기법들을 제안한다. 또한, 제안한 기법들을 적용한 범용 자연어 이해 모델(일명: OLAP-BERT)의 사전 학습에 사용할 수 있도록 컴퓨터 사이언스 도메인의 데이터로부터 직접 구축한 레코드 기반 코퍼스(일명: DBLP-RC)와 의미역 결정 작업을 위한 학습에 사용할 수 있는 데이터셋(일명: DBLP-RDfSRC), 인용 의도 분류 작업을 위한 학습에 사용할 수 있는 데이터셋(일명: DBLP-RDfCIC)을 소개한다. 제안한 기법과 데이터셋을 통해 학습된 우리의 OLAP-BERT 모델은 의미역 결정 및 인용 의도 분류와 같은 자연어 처리 작업에 대한 실험에서 종래의 모델보다 우수한 성능을 보였다. 이러한 결과는 Dimension 속성값을 이용해 자연언어 딥러닝 모델의 성능을 더욱 향상시킬 수 있음을 보여준다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼