RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • UNCERTAINTY AWARE ACTIVE META LEARNING FOR LOW RESOURCE NATURAL LANGUAGE UNDERSTANDING

        서상현 동국대학교 일반대학원 2022 국내박사

        RANK : 3951

        In the field of artificial intelligence, deep learning is receiving a lot of attention and it has been proven that it can be successfully used in various fields. In the field of natural language processing, a general-purpose language model trained by large scale data and attention mechanism based deep neural networks is receiving a lot of attention. However, there are limitations such as time and cost to collect and process a large amount of data, and there is a difficulty in deep learning-based natural language processing even for domains where it is difficult to collect a large amount of data. The low resource natural language understanding model is essential for the application of more advanced language models in various tasks, and recently diverse meta learning approaches have drawn interest. Meta-learning is a concept of learning how to learn, and it refers to a learning method that can efficiently solve the few shot learning problem by learning how to efficiently generalize the task using only a small amount of data. However, the existing meta-learning methodology has some limitations. First, many researches related to meta-learning are focused on computer vision, so there are relatively few researches considering domain characteristics in the field of natural language processing. In addition, the problem of meta overfitting in the process of performing meta-learning is pointed out as a major problem of the degradation of the generalization performance of the few shot learning model, and learning from higher-quality data or tasks is required because learning is performed based on a small amount of data. Therefore, in this thesis, two meta learning methodologies that can efficiently build generalized models through learning in a natural language understanding task are proposed and these methodologies can utilize only low resource learning data. First, task augmentation technique in the meta learning process is proposed to alleviate the meta overfitting problem and to improve the generalization performance of the few shot natural language understanding model. Second, this thesis proposes an uncertainty aware active meta learning methodology that enables learning to be performed by selecting high-quality samples from among various task that can be used during learning. The proposed uncertainty-aware active meta-learning methodology quantifies the prediction uncertainty of the model with respect to the input data, and provides a loss function and learning strategy that can weight and control the influence of the input data on the learning of the model. Based on this theoretical background, this thesis have experiments to measure the performance of meta learning model on the main tasks of low resource NLU such as few shot relation classification, few shot sentiment classification, and out-of-distribution detection. As a result of the experiment, it was shown that it was possible to build a low-resource natural language understanding model with improved performance, and in the process, an analysis of the experimental result indicators of the proposed methodology was performed. As a result of such research, the main contribution of this thesis is summarized as follows. First, this thesis expands area of meta-learning research focused on computer vision into the field of natural language processing, contributing to the effective use of meta-learning technology in more diverse applications. Next, In this thesis, a new meta learning approach that selects high quality samples was proposed by suggesting a method to reflect the model's quantified uncertainty again in learning. Finally, by conducting experiments on various low resource language understanding tasks such as few shot relation classification, few shot sentiment analysis, out-of-distribution detection, it was shown that the proposed methodologies can be used more generally, contributing to the expansion of the application range of the model in the field of low resource natural language understanding. 인공지능 분야에서는 딥러닝(deep learning)이 많은 관심을 받으며 다양한 분야에서 성공적으로 활용될 수 있음이 증명되고 있다. 자연어 처리 분야에서도 딥러닝에 기반하여 다량의 데이터와 대규모의 모델을 구축하여 범용성 있는 언어모델을 구축하는 작업들이 많은 관심을 받고 있다. 하지만 다량의 데이터를 확보하고 처리할 수 있는 시간과 비용 등의 문제가 있으며, 다량의 데이터를 구축하기 어려운 도메인에 대해서는 딥러닝 기반의 자연어 처리 모델 구축에 어려움이 있다. 저자원 자연어 이해(low resource natural language understanding)모델을 구축하기 위한 학습 기술의 연구개발은 보다 진보된 형태의 언어모델의 다양한 태스크에서의 응용에 있어서 필수적이다. 메타러닝(meta learning)은 학습하는 방식을 학습하는 개념으로서 소량의 데이터만을 활용하여 해당 태스크를 효율적으로 일반화하는 방식을 학습하여 퓨샷 학습(few shot learning) 문제를 효율적으로 해결할 수 있는 학습 방식을 의미한다. 하지만 기존 메타러닝의 방법론에는 몇 가지 한계가 있다. 먼저, 메타러닝과 관련된 다수의 연구는 컴퓨터 비전을 중심으로 이루어지고 있어서 자연어 처리 분야에서의 도메인 특성을 고려한 연구가 상대적으로 부족하다. 또한, 메타러닝을 수행하는 과정에서의 메타 과적합 문제는 퓨샷 학습 모델의 일반화 성능 저하의 주요한 원인으로 지적되고 있으며, 소량의 데이터를 기반으로 학습을 수행해야 하기 때문에 보다 양질의 데이터 혹은 태스크로부터 학습을 수행할 수 있는 기술이 필요하다. 이에 본 논문에서는 저자원의 학습 데이터만 활용할 수 있는 자연어 이해 태스크에서 학습을 통해 효율적으로 일반화된 모델을 구축할 수 있는 두 가지 메타러닝 기술을 제안한다. 첫째로 본 논문에서는 메타 과적합(meta overfitting) 문제를 완화하고 퓨샷 자연어 이해 모델의 일반화 성능 향상시키기 위하여 메타학습 과정에서의 태스크 증강(task augmentation) 기법을 제안한다. 둘째로 본 논문은 학습 시 활용가능한 다양한 태스크의 데이터 중 양질의 태스크를 선별하여 학습을 수행할 수 있도록 하는 불확실성 인식 능동 메타러닝(uncertainty aware active meta learning) 방법론을 제안한다. 제안하는 불확실성 인식 능동 메타러닝 방법론은 입력 데이터에 대하여 모델의 예측 불확실성을 정량화 하여, 입력 데이터가 모델의 학습에 미치는 영향력을 가중조절할 수 있는 손실함수 및 학습 전략을 제공한다. 이러한 이론적 배경을 바탕으로 본 논문은 제안하는 메타러닝 기술을 퓨샷 관계 분류(few-shot relation classification), 퓨샷 감성 분류(few-shot sentiment classification), 이상분포탐지 (out-of-distribution detection) 등 저자원 자연어 이해의 주요한 태스크와 벤치마크 데이터셋에 대한 구현 및 비교실험을 수행하였다. 실험결과, 보다 향상된 성능의 저자원 자연어 이해 모델을 구축할 수 있음을 보였으며, 그 과정에서의 제안하는 방법론의 실험결과 지표들에 대한 분석을 수행하였다. 이와 같은 연구수행의 결과로 본 논문이 해당 연구분야에서 가지는 주요 공헌을 요약하면 다음과 같다. 먼저, 본 연구는 주로 컴퓨터 비전을 중심으로 한 메타러닝 연구를 자연어 처리 분야로 확장하여 보다 다양한 응용 분야에서 메타러닝 기술이 효과적으로 활용될 수 있도록 기여한다. 다음으로, 모델의 예측 불확실성은 일반적으로 모델의 예측 결과에 대한 사후 분석으로 활용되었으나, 본 연구에서는 모델의 예측 불확실성을 활용하여 다시 학습에 반영하는 방안을 제시함으로써 양질의 샘플을 선별하여 학습을 수행하는 새로운 메타러닝 접근방안을 제시하였다. 마지막으로, 다양한 저자원 언어 이해 태스크에 대한 실험을 진행하여 보다 범용적으로 제안하는 기술이 활용될 수 있음을 보여 저자원 자연어 이해 분야에서의 모델의 응용 범위 확장에 기여하였다.

      • HPSG/MRS-based natural language generation using transformer

        이규민 Graduate School, Korea University 2022 국내석사

        RANK : 3948

        본 연구는 기호적 자연어처리를 확률적 자연어처리와 통합하여 보다 유연하면서 동시에 조절 가능한 모델을 만드는 하나의 방법을 살펴보는 것을 목표로 한다. 전통적으로, 자연어처리는 규칙을 기반으로 한 오토마타를 만들어서 인간 언어의 논리적 과정을 재현하는 것을 목표로 하였다. 하지만 머신러닝, 특히 딥러닝 혹은 신경망 기술의 부상과 함께 확률에 기반으로 한 모델이 주목받으면서 기호적 자연어처리가 어떤식으로든지 도움이 되는가라는 질문을 던지는데 이르렀다. 확률적 자연어처리는 데이터를 유연하게 처리할 수 있는 강점을 가지고 있으며, 이를 통해 다양한 분야에서 넓은 부분을 포섭하고 있다. 특히 최근 트랜스포머를 기반으로 한 BERT, GPT 등의 언어 모델은 모델 전체를 다시 훈련시킬 필요 없이 다양한 분야에 맞게 사람과 근사한 성능을 보이도록 파인튜닝되어 사용할 수 있다. 이에 반해 기호적 자연어처리, 특히 기호적 지식을 통계와 결합시킨 문법공학(Grammar Engineering)의 결과들은 매우 정교하지만 그 범위가 좁은 것으로 알려져 있다. 문법 공학으로 만들어진 전산 문법 가운데 본 연구에서는 MRS(Minimal Recursion Semantics)를 의미 표상 방식으로 채택한 영어자원문법(English Resource Grammar)을 사용한다. 구체적으로, 본 연구는 Hajdik 외(2019)의 연구를 트랜스포며 모델을 적용하여 재현한다. 즉, MRS로 된 의미 표상을 기계번역함으로써 영어 문장을 생성해 내는 자연어 생성기를 만든다. 핵어중심구구조문법(Head-Driven Phrase Structure Grammar) 체계와 호환되도록 설계된 MRS는 범위(scoping) 정보를 포함하여 표층구조에 대한 매우 많은 정보를 가지고 있으면서도 대규모 전산 활용에 적절히 활용될 수 있도록 단층적인 구조를 가지고 있다. 또한 본 연구는 영어자원문법을 통해 데이터를 증강시키는 것이 가지는 효과를 검증하는 측면에서도 Hajdik 외(2019)의 연구를 재현한다. 트랜스포머 모델이 비교적 긴 시퀀스를 잘 처리할 수 있는 만큼, 해당모델이 의미 표상으로 부터 통사적 구조를 더 잘 재구성 해 내는 것으로 나타났다. 하지만, 본 연구의 결과는 또한 트랜스포머의 셀프 어텐션 기법이 어휘 항목에 충분한 주의를 기울이는 데 실패하여 어휘 항목 선택이라는 간단할 것으로 예상한 과업을 제대로 수행해 내지 못했음을 제시한다. 본 연구에서는 또한 모델의 오류와 어텐션 가중치 분포를 질적으로 조사한다. 결과적으로, 본 연구는 어텐션 기법이 자질이 풍부하게 표기되어 있는 데이터를 처리하는데 약점을 보인다는 점을 제시한다. 또한, 단어 이하 단위 분절 및 어텐션 조정 등을 통하여 궁극적으로 모델의 성능을 높일 수 있는 방법을 제안한다. 마지막으로, "MRS 템플릿"이라는, 해당 시스템의 실용적인 활용 방법을 제시한다. 결과적으로 본 연구는 현대 자연어처리에 언어학이 중요한가라는 질문에 답을 찾기 위한 노력의 과정이다. 언어학적으로 생성된 데이터셋이 원 의미 표상의 통사 구조에 매우 충실한 자연어생성 모델을 만들어 낼 수 있다는 점을 보임으로써, 본 연구는 언어학 지식이 여전히 자연어처리와 연관이 있으며, 특히 어텐션 기법에만 의존하지 않는 방향으로 유연하면서도 조절 가능한 모델을 개발하는 방법을 모색한다. This research aims to investigate a way to integrate symbolic natural language processing (NLP) with stochastic NLP, thus trying to make a model that is both flexible and controllable. Traditionally, practitioners of NLP focused on making rule-based automata to replicate logical process of human language. However, with the rise of machine learning and, particularly, deep learning, or neural networks, the probability-based method gained enough popularity to the point of raising a question of whether symbolic NLP is helpful by any means. Stochastic NLP has its forte in flexible processing of data, boasting broad coverage in many domains. Particularly, modern Transformer-based language models like BERT and GPT can be fine-tuned for several different domains for near-human performance without fully re-training them. Meanwhile, symbolic NLP, particularly the results of grammar engineering, which incorporates symbolic motivation with statistics, are known to be highly precise but with limited coverage. Among the engineered grammars, English Resource Grammar (ERG) is used here as it incorporates Minimal Recursion Semantics (MRS) as its meaning representation. Concretely, the current research replicates the research of Hajdik et al. (2019) with Transformer model. In other words, it makes a neural natural language generator that generates English sentence by translating the meaning representation in MRS. Developed to be compatible with Head-Driven Phrase Structure Grammar framework, MRS contains very rich information on the semantics of a sentence including the scoping information while being flat to be adequate for large-scaled computational application. The research also replicates Hajdik et al. (2019) to validate the impact of augmenting the data with ERG. As Transformer model is able to process longer sequence better, the results shows that Transformer model improved the syntactic reconstruction from the meaning representation. However, the results suggest that the Self-Attention mechanism of Transformer failed to pay enough attention to the lexical items, thus failing at the seemingly simple task of lexical item choices. The research also qualitatively assess the model's errors and Attention weight distributions. In conclusion, the current research suggests that Attention mechanisms have weakness in dealing data richly annotated with features. Also, it suggests some ways to ultimately improve the performance of the model by methods like subword tokenization and Attention manipulation. Finally, it suggests a possible practical application of the system of an "MRS Template". Overall, the current research is an endeavor to see whether linguistics matters to modern day NLP. Demonstrating linguistically motivated dataset can make a natural language generation model that is highly faithful to the syntactic structure of the original meaning representation, it claims that domain knowledge of linguistics is relevant and sketches a way to develop flexible and controllable models, particularly by not depending extensively on the Attention mechanism.

      • Semantic scene understanding based human-robot cooperation

        문지윤 서울대학교 대학원 2020 국내박사

        RANK : 3929

        Human-robot cooperation is unavoidable in various applications ranging from manufacturing to field robotics owing to the advantages of adaptability and high flexibility. Especially, complex task planning in large, unconstructed, and uncertain environments can employ the complementary capabilities of human and diverse robots. For a team to be effectives, knowledge regarding team goals and current situation needs to be effectively shared as they affect decision making. In this respect, semantic scene understanding in natural language is one of the most fundamental components for information sharing between humans and heterogeneous robots, as robots can perceive the surrounding environment in a form that both humans and other robots can understand. Moreover, natural-language-based scene understanding can reduce network congestion and improve the reliability of acquired data. Especially, in field robotics, transmission of raw sensor data increases network bandwidth and decreases quality of service. We can resolve this problem by transmitting information in the form of natural language that has encoded semantic representations of environments. In this dissertation, I introduce a human and heterogeneous robot cooperation scheme based on semantic scene understanding. I generate sentences and scene graphs, which is a natural language grounded graph over the detected objects and their relationships, with the graph map generated using a robot mapping algorithm. Subsequently, a framework that can utilize the results for cooperative mission planning of humans and robots is proposed. Experiments were performed to verify the effectiveness of the proposed methods. This dissertation comprises two parts: graph-based scene understanding and scene understanding based on the cooperation between human and heterogeneous robots. For the former, I introduce a novel natural language processing method using a semantic graph map. Although semantic graph maps have been widely applied to study the perceptual aspects of the environment, such maps do not find extensive application in natural language processing tasks. Several studies have been conducted on the understanding of workspace images in the field of computer vision; in these studies, the sentences were automatically generated, and therefore, multiple scenes have not yet been utilized for sentence generation. A graph-based convolutional neural network, which comprises spectral graph convolution and graph coarsening, and a recurrent neural network are employed to generate sentences attention over graphs. The proposed method outperforms the conventional methods on a publicly available dataset for single scenes and can be utilized for sequential scenes. Recently, deep learning has demonstrated impressive developments in scene understanding using natural language. However, it has not been extensively applied to high-level processes such as causal reasoning, analogical reasoning, or planning. The symbolic approach that calculates the sequence of appropriate actions by combining the available skills of agents outperforms in reasoning and planning; however, it does not entirely consider semantic knowledge acquisition for human-robot information sharing. An architecture that combines deep learning techniques and symbolic planner for human and heterogeneous robots to achieve a shared goal based on semantic scene understanding is proposed for scene understanding based on human-robot cooperation. In this study, graph-based perception is used for scene understanding. A planning domain definition language (PDDL) planner and JENA-TDB are utilized for mission planning and data acquisition storage, respectively. The effectiveness of the proposed method is verified in two situations: a mission failure, in which the dynamic environment changes, and object detection in a large and unseen environment. 인간과 이종 로봇 간의 협업은 높은 유연성과 적응력을 보일 수 있다는 점에서 제조업에서 필드 로보틱스까지 다양한 분야에서 필연적이다. 특히, 서로 다른 능력을 지닌 로봇들과 인간으로 구성된 하나의 팀은 넓고 정형화되지 않은 공간에서 서로의 능력을 보완하며 복잡한 임무 수행을 가능하게 한다는 점에서 큰 장점을 갖는다. 효율적인 한 팀이 되기 위해서는, 팀의 공통된 목표 및 각 팀원의 현재 상황에 관한 정보를 실시간으로 공유할 수 있어야 하며 함께 의사 결정을 할 수 있어야 한다. 이러한 관점에서, 자연어를 통한 의미론적 환경 이해는 인간과 서로 다른 로봇들이 모두 이해할 수 있는 형태로 환경을 인지한다는 점에서 가장 필수적인 요소이다. 또한, 우리는 자연어 기반 환경 이해를 통해 네트워크 혼잡을 피함으로써 획득한 정보의 신뢰성을 높일 수 있다. 특히, 대량의 센서 데이터 전송에 의해 네트워크 대역폭이 증가하고 통신 QoS (Quality of Service) 신뢰도가 감소하는 문제가 빈번히 발생하는 필드 로보틱스 영역에서는 의미론적 환경 정보인 자연어를 전송함으로써 통신 대역폭을 감소시키고 통신 QoS 신뢰도를 증가시킬 수 있다. 본 학위 논문에서는 환경의 의미론적 이해 기반 인간 로봇 협동 방법에 대해 소개한다. 먼저, 로봇의 지도 작성 알고리즘을 통해 획득한 그래프 지도를 이용하여 자연어 문장과 검출한 객체 및 각 객체 간의 관계를 자연어 단어로 표현하는 그래프를 생성한다. 그리고 자연어 처리 결과를 이용하여 인간과 다양한 로봇들이 함께 협업하여 임무를 수행할 수 있도록 하는 프레임워크를 제안한다. 본 학위 논문은 크게 그래프를 이용한 의미론적 환경 이해와 의미론적 환경 이해를 통한 인간과 이종 로봇 간의 협업 방법으로 구성된다. 먼저, 그래프를 이용한 의미론적 환경 이해 부분에서는 의미론적 그래프 지도를 이용한 새로운 자연어 처리 방법에 대해 소개한다. 의미론적 그래프 지도 작성 방법은 로봇의 환경 인지 측면에서 많이 연구되었지만 이를 이용한 자연어 처리 방법은 거의 연구되지 않았다. 반면 컴퓨터 비전 분야에서는 이미지를 이용한 환경 이해 연구가 많이 이루어졌지만, 연속적인 장면들은 다루는데는 한계점이 있다. 따라서 우리는 그래프 스펙트럼 이론에 기반한 그래프 컨볼루션과 그래프 축소 레이어로 구성된 그래프 컨볼루션 신경망 및 순환 신경망을 이용하여 그래프를 설명하는 문장을 생성한다. 제안한 방법은 기존의 방법들보다 한 장면에 대해 향상된 성능을 보였으며 연속된 장면들에 대해서도 성공적으로 자연어 문장을 생성한다. 최근 딥러닝은 자연어 기반 환경 인지에 있어 급속도로 큰 발전을 이루었다. 하지만 인과 추론, 유추적 추론, 임무 계획과 같은 높은 수준의 프로세스에는 적용이 힘들다. 반면 임무를 수행하는 데 있어 각 에이전트의 능력에 맞게 행위들의 순서를 계산해주는 상징적 접근법(symbolic approach)은 추론과 임무 계획에 있어 뛰어난 성능을 보이지만 인간과 로봇들 사이의 의미론적 정보 공유 방법에 대해서는 거의 다루지 않는다. 따라서, 인간과 이종 로봇 간의 협업 방법 부분에서는 딥러닝 기법들과 상징적 플래너(symbolic planner)를 연결하는 프레임워크를 제안하여 의미론적 이해를 통한 인간 및 이종 로봇 간의 협업을 가능하게 한다. 우리는 의미론적 주변 환경 이해를 위해 이전 부분에서 제안한 그래프 기반 자연어 문장 생성을 수행한다. PDDL 플래너와 JENA-TDB는 각각 임무 계획 및 정보 획득 저장소로 사용한다. 제안한 방법의 효용성은 시뮬레이션을 통해 두 가지 상황에 대해서 검증한다. 하나는 동적 환경에서 임무 실패 상황이며 다른 하나는 넓은 공간에서 객체를 찾는 상황이다.

      • Generating Semantic Graphs for Natural Language

        Zhou, Jiawei Harvard University ProQuest Dissertations & Theses 2023 해외박사(DDOD)

        RANK : 3919

        Natural language understanding is a critical capability in achieving advanced artificial intelligent language processing systems such as reading comprehension, question answering, and interactive dialogues. Despite the remarkable progress made by modern deep learning techniques for natural language processing (NLP) in the past decade, machines still lag behind human capacity in deep language understanding. This requires machines to represent and comprehend the underlying meaning, or semantics, from the surface form of language despite its variations and intricacies. Explicit semantic representations of language provide a systematic way of building interpretable and controllable agents with language understanding ability, especially with versatile graph structures. Abstracting away from the surface form of language, the semantic graphs can capture complex semantic phenomena, and provide a structured and consistent way of presenting the underlying meaning of language, which can be utilized for applications that require accurate semantic interpretation. Depending on applications, certain semantic graphs such as functional programs can also be executable for direct machine processing, paving ways for interactive and efficient human-machine communication. However, the complexity of the structured graphs and the expensiveness of expert data annotation pose unique challenges in automating the generation process of these graphs.In this thesis, we develop techniques using machine learning models to generate such semantic graphs for natural language, as well as exploring efficient utilization of these graphs in real applications such as dialogue systems. We first formulate a general framework for text-to-graph generation with an autoregressive process through a carefully designed sequence of actions, and then devise a principled approach that combines the general graph construction process and neural models such as sequence-to-sequence Transformer models and pointer networks with synergy. We apply the proposed method to interpret natural language sentences into abstract semantic graphs, where the end-to-end deep learning model is guided by carefully designed logic-based state machines that manage the graph and action transduction. The hybrid approach injects an effective form of structured inductive bias in the model computation, resulting in high-quality graph generation without complex modeling pipelines. With recent advances of pre-trained language models benefiting from large amounts of unlabeled data, we further study the effective way of merging the benefits of these unstructured models with structured generation of semantic graphs to increase data efficiency. Furthermore, we extend our text-to-graph generation framework for executable semantic graphs that are programs serving as essential building blocks of a reliable task-oriented dialogue system. We propose a novel online semantic parsing paradigm which aims to generate and execute partial semantic graphs simultaneously as the sentence is being revealed. The application enables real-time interpretation of human utterances to accelerate machine response, making human-machine interaction experience more natural. We hope our research on text-to-graph generation and application not only sheds some light on natural language understanding and reliable semantic-aware system building, but also creates further opportunities for interdisciplinary research beyond NLP where symbolic graph-structured data modeling and generation are of vital importance.

      • Replacement 를 활용한 개체명 인식 모델 학습 데이터 증강 기법

        박상희 성균관대학교 일반대학원 2022 국내석사

        RANK : 3917

        자연어 처리 분야(NLP, Natural Language Processing)에서 Attention 메커니즘 기반의 Transformer 모델 구조를 활용한 사전 학습된 언어 모델(PLM, Pre-trained Language Model)들이 대거 등장하게 되면서 수 많은 자연어 관련 Task 에서 좋은 성능의 결과를 얻는 모델들을 학습할 수 있게 되었다. 최근에는 이런 사전 학습된 언어 모델들의 파라미터의 수가 점점 커져가면서 Large Scale 을 갖는 모델들이 등장하고 있고, Large-scale Pre-trained Model 을 활용하여 주어진 자연어 문제를 풀고자 할 때 필수 요소 중 하나는 Downstream Task 에 대해서 충분한 Labeled Dataset 을 확보하는 것이다. Fine-Tuning 을 충분히 학습하여 좋은 성능을 갖는 모델을 얻기 위해서는 각각의 Task 에 적합한 충분한 양의 Labeled Dataset 이 필요하지만, 이런 데이터셋을 구축하는 데에는 많은 시간과 비용 및 다수의 훈련된 작업자가 필요하다. 또한 일반적으로 특정한 Task 를 해결하기 위해 구축한 데이터셋은 다른 Task 에는 적용하는데 많은 제약과 어려움이 따른다. 즉 데이터셋의 재활용 측면에서 보면 효율적이지 못하다. 그렇기 때문에 다양한 Augmentation 기법을 통하여 소수의 Labeled Dataset 을 가지고도 좋은 성능을 낼 수 있는 모델을 만드는 방법에 대해서 최근 많은 연구들이 진행되고 있다. 자연어 처리 분야의 대표적인 Task 중 하나인 개체명 인식(NER, Named Entity Recognition)은 자연어 문장에서 사전에 정의되어 있는 개체명으로 사용된 단어를 추출하는 작업을 의미한다. 이런 개체명 인식 모델을 Fine-Tuning 하기 위해서는 역시 많은 양의 Labeled Dataset 이 필요하며, 개채명 인식 모델을 위한 Labeled Dataset 의 경우 각각의 단어들에 대하여 모두 Label 이 존재해야 하기 때문에 비교적 간단한 Task 인 Text Classification 을 위한 Labeled Dataset 구축 보다도 훨씬 더 많은 시간과 비용이 필요하다. 그렇기 때문에 본 연구에서는 개체명 인식 모델을 위한 Augmentation 기법을 연구한다. 각각의 개체명들의 Bag of words 를 기반으로 단어의 교체(Relpacement)를 통한 Augmentation 기법을 제안하며 이와 더불어 기존의 Text Classification 에서 널리 사용된 Augmentation 기법인 EDA 와 AEDA 를 결합한 방법, Self-Training 을 결합한 방법을 추가로 제안한다. 마지막으로, 기존의 Text Classification 분야 등에서 널리 사용된 텍스트 Augmentation 기법과 본 연구에서 제안 기법의 성능을 비교하여, 자연어 처리 분야에서 Fine-Tuning 을 위한 Augmentation 기법은 각 Task 에 알맞는 최적화된 방법을 사용하는 것이 더 좋은 방법임을 제안한다. In the field of natural language processing (NLP), a large number of pre-trained language models (PLMs) of the Attention Mechanism-based Transformer model structure have emerged, allowing us to learn models that achieve good performance on many natural language-related tasks. Recently, as the number of parameters of these pre- learned language models is increasing, models with a large scale pre-trained model are emerging, and one of the essential factors for solving a given natural language problem depends on fine-tuning learning with enough Labeled Dataset. In order to learn Fine-Tuning sufficiently and obtain a model with good performance, a sufficient amount of Labeled Dataset suitable for each task is required, but it takes a lot of time, money, and a large number of workers to build this dataset. In addition, datasets built to address specific tasks generally have many constraints and difficulties in applying them to other tasks. In other words, it is not efficient in terms of recycling. Therefore, many studies have recently been conducted on how to create a model that can produce good performance even with a small number of Labeled Datasets through various Augmentation techniques. Named entity recognition (NER), one of the most representative tasks in the field of natural language processing, refers to the extraction of words used as predefined entity names in natural language sentences. Fine-tuning these object name recognition models also requires a large amount of Labeled Dataset, and Labeled Dataset for dog name recognition models requires a label for each word, so it takes much more time and money than building Labeled Dataset for Text Classification, a relatively simple task. Therefore, in this study, we study the Augmentation technique for the object name recognition model. Based on the Bag of words of each individual name, we propose an augmentation technique through word replacement, along with a method that combines EDA and AEDA, which are widely used in existing Text Classification, and a method that combines Self- Training. Finally, comparing the performance of the text augmentation technique widely used in the field of Text Classification and the proposed technique in this study, we propose that the augmentation technique for Fine-Tuning in the field of natural language processing is a better method to use an optimized method for each task.

      • Exploring Question Answering Tasks with the Language Model, BERT

        정서형 서울대학교 대학원 2021 국내석사

        RANK : 3915

        Question Answering (QA) is an automated approach of retrieving the correct answer given a question and documents, which provides a foundation to many other Natural Language Processing (NLP) tasks, such as Natural Language Generation, Natural Language Inference, and Named Entity Recognition. QA in English language datasets has brought great improvements. However, QA systems have not been thoroughly explored in foreign languages or in multi-modality domains, such as in Visual Question Answering and Video Question Answering (Video QA). Applying language models, such as BERT \cite{devlin2018bert} and XLNET \cite{yang2019xlnet}, to foreign language QA tasks requires an understanding of characteristics in the foreign language. Video QA requires a fine-grained understanding of both video and language modalities to answer a given question. In this work, we mainly demonstrate a BERT-based question answering model on a Korean QA dataset. This paper explores the dataset, KorQuAD 2.0 \cite{kim2020korquad}, with the BERT-base-multilingual model released by Google and the Larva-base-cased model released by Naver. We introduce an additional tokenizer to pre-trained models and adopt a negative sampling method during the fine-tuning stage to balance the ratio of positive and negative data samples. In addition, a different size of the window stride is used during the inference to improve the latency. As a result, we achieve 58.21 of exact match (EM) and 77.33 of F1 scores with 1,629 ms inference speed per a query, which largely outperforms the previous baseline of 30.24 EM and 45.96 F1 scores with a 13,484 ms latency speed. Furthermore, we extend the BERT-based QA model to tackle a highly competitive multiple-choice Video QA benchmark dataset, TVQA \cite{lei2018tvqa}. 질의 응답(Question Answering)은 주어진 질의에 대한 정답을 문백에서 자동적으로 추출해내는 기술로 자연어 처리 (Natural Language Processing)의 핵심적인 기술의 하나이며, 자연어 생성, 자연어 추론, 개체명 인식 등의다른 자연어 처리 기술들의 기술적 토대가 된다. 영어로 구성된 SQuAD \cite{rajpurkar2016squad}와 Natural Questions \cite{kwiatkowski2019natural}와 같은 데이터 셋들은 영어에서의 질의 응답 기술에 큰 발전을 가져왔다. 하지만 영어이외의 언어에서의, 그리고 언어 이외의 이미지 질의 응답 혹은 비디오 질의 응답 (Video QA)과 같이 멀티 모달 환경에서의 질의 응답의 문제는 심층적인 탐구를 필요로한다. 기존의 BERT \cite{devlin2018bert} 혹은 XLNET \cite{yang2019xlnet}과 같은 언어 모델을 영어 이외의 언어에 적용하기위해서는 해당 언어의 특성에 대한 이해가 필요하다. 또한 비디오 질의 응답의 경우, 비디오와 자연어 두 가지 모달리티에 대한 심층적인 이해가 필요하다. 이에 본 연구에서는 우리는 BERT 언어 모델을 기반으로 한 한국어에서의 질의 응답 모델을 제안한다. 해당 논문은 Google에서 공개한 BERT-base-multilingual 모델 \cite{devlin2018bert}과, 네이버에서 한국어 관련 대용량 말뭉치에 사전학습하여 공개한 Larva-base-cased 모델 \cite{claf}을 사용하여 한국어 질의 응답 데이터 셋, KorQuAD 2.0에서의 기계 독해 (Machine Reading Comprehension)를 진행한다. 모델 학습 시, 추가적인 형태소 분석기와 네거티브 샘플링 (negative sampling)을 사용하였으며, 추가적으로 추론 시, 학습 때와는 다른 Stride Window 크기를 사용하여 추론 속도 (latency)를 높일 수 있도록 하였다. 그 결과, 기존의 베이스라인이 되는 모델의 성능이었던 EM 점수 30.24점, F1 점수 45.96점, 13,484 ms의 추론 속도 EM 점수 58.21점, F1 점수 77.33 점, 1,629 ms의 추론 속도로 높일 수 있었다. 나아가, 해당 논문에서는 BERT를 기반으로 하는 질의 응답 모델을 비디오 질의 응답 데이터 셋, TVQA \cite{lei2018tvqa}에 적용할 수 있도록 확장하는 방식을 함께 소개한다.

      • LLMC-D: Large Language Model Compression on Distributed Environment

        KyeongHwan Kim 고려대학교 대학원 2024 국내박사

        RANK : 3903

        Transformer-based language models have demonstrated exceptional performance in the field of natural language processing. Language models with vast parameters require significant computation time and GPU memory, leading to a surge in service costs and an increased demand for language model compression research. Most compression studies mainly focus on the algorithms and tend to overlook the impact of multiple nodes and GPUs. Since large language models cannot be loaded onto a single GPU or node, compression algorithms need to consider a distributed environment across multiple nodes. This thesis proposes an algorithm using Knowledge Distillation and Quantization to achieve high compression rates while minimizing performance degradation. We introduce a three-stage compression algorithm. The first stage, 'teacher quantization', presents a novel technique to accelerate the speed of knowledge distillation. We utilize an efficient training method that leverages intermediate model outputs to maximize compression performance. We shall present a new system for effectively compressing large-scale language models and optimizing their execution on a distributed environment. The system enables efficient use of computational resources, allowing for the economical compression and servicing of large-scale language models. We extend our proposed three-stage compression algorithm to a heterogeneous distributed setting. This system aims to minimize communication overhead and reduce bottlenecks, proposing efficient model deployment strategies and diverse node distribution strategies to lessen communication overhead and achieve scalability. It also supports an efficient distributed workflow to execute the compression algorithm. Transformer 기반 언어 모델은 자연어 처리 분야에서 우수한 성능을 보여주었다. 언어 모델들은 방대한 파라미터를 보유하고 있어 많은 계산 시간과 GPU 메모리를 필요로 한다. 이로 인해 서비스 비용이 급증하였고, 언어 모델의 압축 연구 수요가 증가하였다. 대부분의 압축 연구는 압축 알고리즘 중점적으로 진행되며 다수 노드와 GPU에 의한 영향을 고려하지 않는 경향이 있다. 대규모 언어 모델은 하나의 GPU 혹은 노드에 적재 불가능하므로, 압축 알고리즘은 다수 노드의 분산 환경을 고려하여 진행되어야 한다. 본 논문에서 제안하는 알고리즘은 지식 증류(Knowledge Distillation) 및 양자화(Quantization)를 사용하여 높은 압축률을 달성하면서도 성능 저하를 최소화하는 모델 압축 방법을 제시한다. 이를 위해, 우리는 3단계 압축 알고리즘을 제안하며, 이 중 첫 번째 단계인 'teacher quantization'은 지식 증류 속도를 가속화하는 새로운 기법을 제시한다. 또한, 중간 모델 출력을 사용하는 효율적인 학습 방식을 활용하며, 이를 통해 압축 성능을 극대화한다. 또한, 본 논문에서는 분산 환경에서 3 단계 압축 알고리즘을 효과적으로 수행하기 이기종 분산 환경을 개발하였다. 이 시스템은 통신 오버헤드를 최소화하고 병목 현상을 줄일 수 있는 효율적인 모델 배치 전략과 다양한 노드 분배 전략을 제시하고 압축 알고리즘을 효율적으로 실행할 수 있는 분산 워크플로를 지원한다.

      • Efficient Natural Language Processing With Limited Data and Resources

        Wang, Hong University of California, Santa Barbara ProQuest D 2023 해외박사(DDOD)

        RANK : 3903

        Natural language processing (NLP) has long been regarded as the pinnacle of artificial intelligence, aiming to achieve a comprehensive understanding of human languages. In recent years, the field has experienced significant advancements with the transition from rule-based approaches to deep learning methodologies. However, the standard approaches often rely on vast amounts of data for learning, highlighting the necessity for more data-efficient techniques. Additionally, effectively utilizing available resources while addressing the challenges of frequent model updates and safeguarding against malicious attacks that exploit limited resources presents another significant problem in NLP. This dissertation focuses on the development of efficient natural language processing (NLP) models under limited data and the effective utilization of available resources. In the first part, we address the challenge of learning models with limited data. For scenarios where only a few examples are available, we propose a meta-learning approach that leverages task-specific meta information to effectively learn new models. For cases with a moderate amount of data but still insufficient for more demanding tasks, we introduce self-supervised learning techniques to enhance performance by incorporating additional learning tasks from the available data. We also explore the limitations of even state-of-the-art language models, such as GPT-3, in handling out-of-distribution data shifts and propose a tutor-based learning approach that converts out-of-distribution problems into in-distribution ones through step-by-step demonstrations.In the second part, we shift our focus to optimizing resource utilization in NLP. Given the rapidly changing nature of the world, frequent updates of deployed models with new data are crucial. We present innovative approaches for effectively updating models in lifelong learning scenarios. As the adoption of large language models as backbone dialogue systems gains popularity, resource limitations become a significant concern. To counter malicious attacks, particularly Distributed Denial of Service (DDoS) attacks, we investigate the detection of bot imposters using a single question. By accurately distinguishing between human users and bots, our objective is to maximize resource allocation for real users and ensure uninterrupted service.

      • Text to 3D Scene Generation

        Chang, Angel Xuan ProQuest Dissertations & Theses Stanford Universit 2015 해외박사(DDOD)

        RANK : 3903

        The ability to form a visual interpretation of the world from natural language is pivotal to human communication. Similarly, from a computational perspective, mapping descriptions of scenes to 3D geometric representations is useful in many areas such as robotics, interior design and even education. Text to 3D scene generation is a task which addresses this problem space. A user provides natural language as input and the output is a plausible 3D scene interpretation. This is a challenging domain connecting NLP and computer graphics. The few existing systems for generating 3D scenes from text are severely restricted in scope and robustness. The key challenge, and focus of this dissertation, is in incorporating prior knowledge which is essential for successfully generating 3D scenes from highly under-specified natural scene descriptions. Prior systems do not leverage such priors, requiring explicit and verbose language.This dissertation formalizes and decomposes the problem of text to 3D scene generation, and describes the implementation of a new text to scene framework that enables incorporation of priors learned from data. I propose viewing the problem as extracting a set of explicit constraints from input descriptions, combining them with learned common-sense priors for inferring implicit constraints, and then selecting objects and positioning them to satisfy the constraints and generate plausible scenes. To capture the basic semantics of a scene, I define the scene template representation which consists of the objects, their attributes, and relations between them. A given scene template, can be used to generate many matching scenes whose plausibility can be scored. I then define two subtasks: scene template parsing where templates are parsed from natural language, and scene inference where templates are expanded with additional objects and spatial constraints. From the expanded scene templates, my system grounds object references by selecting appropriate 3D models, and then computationally arranges the selected objects to satisfy spatial constraints and maximize plausibility. I then demonstrate how to extend the text to scene system to allow iterative refinement of the generated scenes using natural language commands to add, remove, replace, and manipulate objects.In building the text to scene framework presented here, I learn a set of common-sense priors using datasets of 3D models and scenes and evaluate their impact on the quality of generated 3D scenes. From the scene data, I collect several sets of priors: (1) object occurrence priors to determine what other objects should be present, (2) support and relative position priors to determine where objects are placed, and (3) attachment priors to determine how objects are attached. In addition, I collect a new dataset of 3D scenes corresponded with textual descriptions and use it to learn how to ground spatial relation language and object descriptions. I provide this dataset to the community and perform an empirical evaluation of the output of the system against manually designed scenes and simpler rule-based baselines. Using a perceptual evaluation study, I show that the system can generate high quality 3D scenes given natural language input. This initial step in connecting language with 3D geometry opens up many areas of research for bridging the gap between language, semantics and geometry.

      • Sentiment Analysis of Vietnamese Text with PhoBERT- based Deep Classifiers and Ensemble Learning

        Tran, Tao Anh 동국대학교 일반대학원 2023 국내석사

        RANK : 3903

        자연어 처리(NLP)는 인공 지능 분야에서 가장 잘 연구되었지만 도전적인 학문 중 하나입니다. 최근 몇 년 동안 NLP의 전례 없는 발전이 도입되어 감성 분석을 포함한 많은 NLP 하위 작업의 개선을 위한 새로운 가능성이 가능해졌습니다. 대규모 모델의 도입으로 이전에는 Computer Vision 전용으로 예약된 접근 방식이 이제 BERT 및 GPT와 같은 모델을 사용하여 NLP에 적용할 수 있습니다. 이러한 인기 있는 접근 방식 중 하나는 모델이 하나 또는 여러 언어의 일반적인 구문 기능을 이해하기 위해 대규모 코퍼스에서 사전 훈련된 다음 추가 다운스트림 특정 작업을 위해 미세 조정되는 Transfer Learning입니다. 포괄적인 데이터 세트 및 강력한 하드웨어와 함께 최첨단 결과를 생성하는 많은 창의적인 아키텍처와 정교한 미세 조정 기술을 보아왔습니다. 보다 구체적으로, 베트남어에 대해 사전 훈련된 최초의 공개 대규모 단일 언어 모델인 PhoBERT는 많은 베트남어 특정 작업을 해결하기 위한 기준 모델로 사용되었으며 다음과 같은 여러 작업에서 다국어 BERT 모델보다 더 나은 결과를 생성하는 것으로 입증되었습니다. 품사 태깅, 종속성 구문 분석, 명명된 엔터티 인식, 텍스트 분류, 자연어 추론 등. 본 연구에서는 베트남어 감성분석 과제에서 전이학습의 적용을 탐구한다. 베트남어용 BERT의 최첨단 사전 훈련 버전인 PhoBERT를 기준으로 여러 파이프라인으로 실험을 수행하여 모델을 미세 조정합니다. 저는 기본 PhoBERT를 3개의 심층 신경망 아키텍처인 LSTM(장기 기억 장치), RCNN(재귀 컨볼루션 신경망) 및 TextCNN과 결합합니다. 베트남어의 몇 가지 고유한 기능을 인식하고 베트남어 원어민으로서의 통찰력을 활용하고 일부 언어별 데이터 증강 기술을 배포하여 모델의 성능을 더욱 향상시킵니다. 또한 PhoBERT의 계층 선택을 탐색하고 앙상블 학습을 사용하여 고분산 문제를 완화하여 PhoBERT의 일부 약점을 해결합니다. NTC-SV, UIT-VSFC 및 UIT-VSMEC의 세 가지 벤치마크 데이터 세트를 사용하여 내 모델의 성능을 평가합니다. 각 데이터 세트에 대해 고유한 미세 조정 파이프라인으로 다국어 BERT 또는 단일 언어 PhoBERT를 활용하는 기존 구현과 비교를 그립니다. 연구의 주요 기여는 다음과 같이 요약된다. • 감성 분석을 위해 사전 훈련된 PhoBERT를 미세 조정하는 효과적인 파이프라인을 제안합니다. 파이프라인에는 다음이 포함됩니다: (1) 도메인 지식을 활용하여 베트남어에 맞게 조정된 데이터 증대 프로세스 설계, (2) PhoBERT 모델의 여러 변환기 레이어의 기능을 사용하여 데이터의 보다 포괄적인 표현 생성, (3) 다음을 위해 앙상블 학습 사용 PhoBERT의 높은 분산 특성을 완화하고 (4) 딥 러닝 모델의 힘을 활용하여 분류를 수행합니다. • 의미 있는 방식으로 새로운 교육 샘플을 생성하고, 미세 조정 프로세스의 효율성을 개선하고, 자원이 부족한 언어인 베트남어 문제를 해결하기 위해 언어별 데이터 증대에 대한 접근 방식을 소개합니다. 훈련 샘플 크기 또는 극단적인 클래스 불균형. • 나는 클래스 수와 데이터 분포가 다른 세 가지 데이터 세트에 대해 제안한 방법의 모든 측면의 효율성을 평가하기 위해 여러 실험을 수행합니다. 모든 데이터 세트에 대해 내 모델은 기존 방법과 비교하여 경쟁력 있는 결과를 생성합니다. 내 연구 결과에 따르면 파이프라인을 미세 조정하여 도메인별 지식을 성공적으로 활용하여 베트남 언어의 고유한 특성에 맞는 아키텍처와 프로세스를 실현할 수 있었습니다. 내 실험의 결과는 또한 내가 제안한 파이프라인을 일반화하고 베트남 NLP의 다른 많은 하위 도메인에 적용하여 향후 연구에서 더 높은 성능을 달성할 수 있음을 시사합니다. Natural Language Processing (NLP) is one of the most well-studied yet challenging disciplines in the field of Artificial Intelligence. In recent years, unprecedented advancements in NLP have been introduced, enabling new possibilities for improvements in many NLP subtasks including Sentiment Analysis. With the introduction of large-scale models, approaches that were formerly reserved only for Computer Vision are now applicable in NLP with models such as BERT and GPT. One such popular approach is Transfer Learning, where a model is pretrained on a large corpus to understand general syntactical features of one or multiple languages, and then fine-tuned for further down-steam specific tasks. Along with comprehensive datasets and powerful hardware, we have seen many creative architectures and sophisticated fine-tuning techniques that produce state-of-the-art results. More specifically, PhoBERT, the first public large-scale monolingual language model pre-trained for Vietnamese, has been used as the baseline model to solve many Vietnamese language-specific tasks, and proven to produce better results than multilingual BERT models in several tasks such as part-of-speech tagging, dependency parsing, named entity recognition, text classification, natural language inferencing etc. In this study, I explore the application of transfer learning in the task of Sentiment Analysis for Vietnamese language. Using PhoBERT, the state-of-the-art pretrained version of BERT for Vietnamese as the baseline, I conduct experiments with multiple pipelines to fine-tune the model. I combine the baseline PhoBERT with three deep neural networks architectures: long short-term memory (LSTM), recurrent convolutional neural networks (RCNN) and TextCNN. Recognizing some unique features of the Vietnamese language, I leverage my insights as a native Vietnamese speaker and deploy some language-specific data augmentation techniques to further improve the performance of my models. I also address some of PhoBERT’s weaknesses by exploring PhoBERT’s layer selection as well as employing ensemble learning to mitigate high variance issues. I evaluate the performance of my models using three benchmark datasets: NTC-SV, UIT-VSFC and UIT-VSMEC. For each dataset, I draw comparisons to existing implementations that also leverage either multilingual BERT or monolingual PhoBERT with their own unique fine-tuning pipelines. The key contributions of my study are summarized as follows. • I propose an effective pipeline to fine-tune pre-trained PhoBERT for Sentiment Analysis. The pipeline includes: (1) leveraging domain knowledge to design a data augmentation process tailored for the Vietnamese language, (2) using features from multiple transformer layers of PhoBERT model to yield more comprehensive representations of the data , (3) employ ensemble learning to mitigate PhoBERT’s high variance nature, and (4) harnessing the power of deep learning models to perform classification. • I introduce an approach to language-specific data augmentation to generate new training samples in a meaningful manner, help improve the efficiency of the fine-tuning process, and combat the problems of Vietnamese – a low-resource language – such as overfitting on small training sample size, or extreme class imbalance. • I conducted multiple experiments to evaluate the effectiveness of every aspect of my proposed method on three different datasets with distinct number of classes and data distributions. For all datasets, my models produce competitive results in comparison to existing methods. My findings indicate that, with my fine-tuning pipeline, I was able to successfully leverage domain-specific knowledge to realize architectures and processes tailored to the unique characteristics of Vietnamese language. The results of my experiments also suggest that my proposed pipeline can be generalized and applied in many other subdomains of Vietnamese NLP to achieve higher performance in future research.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼