http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
UNCERTAINTY AWARE ACTIVE META LEARNING FOR LOW RESOURCE NATURAL LANGUAGE UNDERSTANDING
서상현 동국대학교 일반대학원 2022 국내박사
In the field of artificial intelligence, deep learning is receiving a lot of attention and it has been proven that it can be successfully used in various fields. In the field of natural language processing, a general-purpose language model trained by large scale data and attention mechanism based deep neural networks is receiving a lot of attention. However, there are limitations such as time and cost to collect and process a large amount of data, and there is a difficulty in deep learning-based natural language processing even for domains where it is difficult to collect a large amount of data. The low resource natural language understanding model is essential for the application of more advanced language models in various tasks, and recently diverse meta learning approaches have drawn interest. Meta-learning is a concept of learning how to learn, and it refers to a learning method that can efficiently solve the few shot learning problem by learning how to efficiently generalize the task using only a small amount of data. However, the existing meta-learning methodology has some limitations. First, many researches related to meta-learning are focused on computer vision, so there are relatively few researches considering domain characteristics in the field of natural language processing. In addition, the problem of meta overfitting in the process of performing meta-learning is pointed out as a major problem of the degradation of the generalization performance of the few shot learning model, and learning from higher-quality data or tasks is required because learning is performed based on a small amount of data. Therefore, in this thesis, two meta learning methodologies that can efficiently build generalized models through learning in a natural language understanding task are proposed and these methodologies can utilize only low resource learning data. First, task augmentation technique in the meta learning process is proposed to alleviate the meta overfitting problem and to improve the generalization performance of the few shot natural language understanding model. Second, this thesis proposes an uncertainty aware active meta learning methodology that enables learning to be performed by selecting high-quality samples from among various task that can be used during learning. The proposed uncertainty-aware active meta-learning methodology quantifies the prediction uncertainty of the model with respect to the input data, and provides a loss function and learning strategy that can weight and control the influence of the input data on the learning of the model. Based on this theoretical background, this thesis have experiments to measure the performance of meta learning model on the main tasks of low resource NLU such as few shot relation classification, few shot sentiment classification, and out-of-distribution detection. As a result of the experiment, it was shown that it was possible to build a low-resource natural language understanding model with improved performance, and in the process, an analysis of the experimental result indicators of the proposed methodology was performed. As a result of such research, the main contribution of this thesis is summarized as follows. First, this thesis expands area of meta-learning research focused on computer vision into the field of natural language processing, contributing to the effective use of meta-learning technology in more diverse applications. Next, In this thesis, a new meta learning approach that selects high quality samples was proposed by suggesting a method to reflect the model's quantified uncertainty again in learning. Finally, by conducting experiments on various low resource language understanding tasks such as few shot relation classification, few shot sentiment analysis, out-of-distribution detection, it was shown that the proposed methodologies can be used more generally, contributing to the expansion of the application range of the model in the field of low resource natural language understanding. 인공지능 분야에서는 딥러닝(deep learning)이 많은 관심을 받으며 다양한 분야에서 성공적으로 활용될 수 있음이 증명되고 있다. 자연어 처리 분야에서도 딥러닝에 기반하여 다량의 데이터와 대규모의 모델을 구축하여 범용성 있는 언어모델을 구축하는 작업들이 많은 관심을 받고 있다. 하지만 다량의 데이터를 확보하고 처리할 수 있는 시간과 비용 등의 문제가 있으며, 다량의 데이터를 구축하기 어려운 도메인에 대해서는 딥러닝 기반의 자연어 처리 모델 구축에 어려움이 있다. 저자원 자연어 이해(low resource natural language understanding)모델을 구축하기 위한 학습 기술의 연구개발은 보다 진보된 형태의 언어모델의 다양한 태스크에서의 응용에 있어서 필수적이다. 메타러닝(meta learning)은 학습하는 방식을 학습하는 개념으로서 소량의 데이터만을 활용하여 해당 태스크를 효율적으로 일반화하는 방식을 학습하여 퓨샷 학습(few shot learning) 문제를 효율적으로 해결할 수 있는 학습 방식을 의미한다. 하지만 기존 메타러닝의 방법론에는 몇 가지 한계가 있다. 먼저, 메타러닝과 관련된 다수의 연구는 컴퓨터 비전을 중심으로 이루어지고 있어서 자연어 처리 분야에서의 도메인 특성을 고려한 연구가 상대적으로 부족하다. 또한, 메타러닝을 수행하는 과정에서의 메타 과적합 문제는 퓨샷 학습 모델의 일반화 성능 저하의 주요한 원인으로 지적되고 있으며, 소량의 데이터를 기반으로 학습을 수행해야 하기 때문에 보다 양질의 데이터 혹은 태스크로부터 학습을 수행할 수 있는 기술이 필요하다. 이에 본 논문에서는 저자원의 학습 데이터만 활용할 수 있는 자연어 이해 태스크에서 학습을 통해 효율적으로 일반화된 모델을 구축할 수 있는 두 가지 메타러닝 기술을 제안한다. 첫째로 본 논문에서는 메타 과적합(meta overfitting) 문제를 완화하고 퓨샷 자연어 이해 모델의 일반화 성능 향상시키기 위하여 메타학습 과정에서의 태스크 증강(task augmentation) 기법을 제안한다. 둘째로 본 논문은 학습 시 활용가능한 다양한 태스크의 데이터 중 양질의 태스크를 선별하여 학습을 수행할 수 있도록 하는 불확실성 인식 능동 메타러닝(uncertainty aware active meta learning) 방법론을 제안한다. 제안하는 불확실성 인식 능동 메타러닝 방법론은 입력 데이터에 대하여 모델의 예측 불확실성을 정량화 하여, 입력 데이터가 모델의 학습에 미치는 영향력을 가중조절할 수 있는 손실함수 및 학습 전략을 제공한다. 이러한 이론적 배경을 바탕으로 본 논문은 제안하는 메타러닝 기술을 퓨샷 관계 분류(few-shot relation classification), 퓨샷 감성 분류(few-shot sentiment classification), 이상분포탐지 (out-of-distribution detection) 등 저자원 자연어 이해의 주요한 태스크와 벤치마크 데이터셋에 대한 구현 및 비교실험을 수행하였다. 실험결과, 보다 향상된 성능의 저자원 자연어 이해 모델을 구축할 수 있음을 보였으며, 그 과정에서의 제안하는 방법론의 실험결과 지표들에 대한 분석을 수행하였다. 이와 같은 연구수행의 결과로 본 논문이 해당 연구분야에서 가지는 주요 공헌을 요약하면 다음과 같다. 먼저, 본 연구는 주로 컴퓨터 비전을 중심으로 한 메타러닝 연구를 자연어 처리 분야로 확장하여 보다 다양한 응용 분야에서 메타러닝 기술이 효과적으로 활용될 수 있도록 기여한다. 다음으로, 모델의 예측 불확실성은 일반적으로 모델의 예측 결과에 대한 사후 분석으로 활용되었으나, 본 연구에서는 모델의 예측 불확실성을 활용하여 다시 학습에 반영하는 방안을 제시함으로써 양질의 샘플을 선별하여 학습을 수행하는 새로운 메타러닝 접근방안을 제시하였다. 마지막으로, 다양한 저자원 언어 이해 태스크에 대한 실험을 진행하여 보다 범용적으로 제안하는 기술이 활용될 수 있음을 보여 저자원 자연어 이해 분야에서의 모델의 응용 범위 확장에 기여하였다.
HPSG/MRS-based natural language generation using transformer
이규민 Graduate School, Korea University 2022 국내석사
본 연구는 기호적 자연어처리를 확률적 자연어처리와 통합하여 보다 유연하면서 동시에 조절 가능한 모델을 만드는 하나의 방법을 살펴보는 것을 목표로 한다. 전통적으로, 자연어처리는 규칙을 기반으로 한 오토마타를 만들어서 인간 언어의 논리적 과정을 재현하는 것을 목표로 하였다. 하지만 머신러닝, 특히 딥러닝 혹은 신경망 기술의 부상과 함께 확률에 기반으로 한 모델이 주목받으면서 기호적 자연어처리가 어떤식으로든지 도움이 되는가라는 질문을 던지는데 이르렀다. 확률적 자연어처리는 데이터를 유연하게 처리할 수 있는 강점을 가지고 있으며, 이를 통해 다양한 분야에서 넓은 부분을 포섭하고 있다. 특히 최근 트랜스포머를 기반으로 한 BERT, GPT 등의 언어 모델은 모델 전체를 다시 훈련시킬 필요 없이 다양한 분야에 맞게 사람과 근사한 성능을 보이도록 파인튜닝되어 사용할 수 있다. 이에 반해 기호적 자연어처리, 특히 기호적 지식을 통계와 결합시킨 문법공학(Grammar Engineering)의 결과들은 매우 정교하지만 그 범위가 좁은 것으로 알려져 있다. 문법 공학으로 만들어진 전산 문법 가운데 본 연구에서는 MRS(Minimal Recursion Semantics)를 의미 표상 방식으로 채택한 영어자원문법(English Resource Grammar)을 사용한다. 구체적으로, 본 연구는 Hajdik 외(2019)의 연구를 트랜스포며 모델을 적용하여 재현한다. 즉, MRS로 된 의미 표상을 기계번역함으로써 영어 문장을 생성해 내는 자연어 생성기를 만든다. 핵어중심구구조문법(Head-Driven Phrase Structure Grammar) 체계와 호환되도록 설계된 MRS는 범위(scoping) 정보를 포함하여 표층구조에 대한 매우 많은 정보를 가지고 있으면서도 대규모 전산 활용에 적절히 활용될 수 있도록 단층적인 구조를 가지고 있다. 또한 본 연구는 영어자원문법을 통해 데이터를 증강시키는 것이 가지는 효과를 검증하는 측면에서도 Hajdik 외(2019)의 연구를 재현한다. 트랜스포머 모델이 비교적 긴 시퀀스를 잘 처리할 수 있는 만큼, 해당모델이 의미 표상으로 부터 통사적 구조를 더 잘 재구성 해 내는 것으로 나타났다. 하지만, 본 연구의 결과는 또한 트랜스포머의 셀프 어텐션 기법이 어휘 항목에 충분한 주의를 기울이는 데 실패하여 어휘 항목 선택이라는 간단할 것으로 예상한 과업을 제대로 수행해 내지 못했음을 제시한다. 본 연구에서는 또한 모델의 오류와 어텐션 가중치 분포를 질적으로 조사한다. 결과적으로, 본 연구는 어텐션 기법이 자질이 풍부하게 표기되어 있는 데이터를 처리하는데 약점을 보인다는 점을 제시한다. 또한, 단어 이하 단위 분절 및 어텐션 조정 등을 통하여 궁극적으로 모델의 성능을 높일 수 있는 방법을 제안한다. 마지막으로, "MRS 템플릿"이라는, 해당 시스템의 실용적인 활용 방법을 제시한다. 결과적으로 본 연구는 현대 자연어처리에 언어학이 중요한가라는 질문에 답을 찾기 위한 노력의 과정이다. 언어학적으로 생성된 데이터셋이 원 의미 표상의 통사 구조에 매우 충실한 자연어생성 모델을 만들어 낼 수 있다는 점을 보임으로써, 본 연구는 언어학 지식이 여전히 자연어처리와 연관이 있으며, 특히 어텐션 기법에만 의존하지 않는 방향으로 유연하면서도 조절 가능한 모델을 개발하는 방법을 모색한다. This research aims to investigate a way to integrate symbolic natural language processing (NLP) with stochastic NLP, thus trying to make a model that is both flexible and controllable. Traditionally, practitioners of NLP focused on making rule-based automata to replicate logical process of human language. However, with the rise of machine learning and, particularly, deep learning, or neural networks, the probability-based method gained enough popularity to the point of raising a question of whether symbolic NLP is helpful by any means. Stochastic NLP has its forte in flexible processing of data, boasting broad coverage in many domains. Particularly, modern Transformer-based language models like BERT and GPT can be fine-tuned for several different domains for near-human performance without fully re-training them. Meanwhile, symbolic NLP, particularly the results of grammar engineering, which incorporates symbolic motivation with statistics, are known to be highly precise but with limited coverage. Among the engineered grammars, English Resource Grammar (ERG) is used here as it incorporates Minimal Recursion Semantics (MRS) as its meaning representation. Concretely, the current research replicates the research of Hajdik et al. (2019) with Transformer model. In other words, it makes a neural natural language generator that generates English sentence by translating the meaning representation in MRS. Developed to be compatible with Head-Driven Phrase Structure Grammar framework, MRS contains very rich information on the semantics of a sentence including the scoping information while being flat to be adequate for large-scaled computational application. The research also replicates Hajdik et al. (2019) to validate the impact of augmenting the data with ERG. As Transformer model is able to process longer sequence better, the results shows that Transformer model improved the syntactic reconstruction from the meaning representation. However, the results suggest that the Self-Attention mechanism of Transformer failed to pay enough attention to the lexical items, thus failing at the seemingly simple task of lexical item choices. The research also qualitatively assess the model's errors and Attention weight distributions. In conclusion, the current research suggests that Attention mechanisms have weakness in dealing data richly annotated with features. Also, it suggests some ways to ultimately improve the performance of the model by methods like subword tokenization and Attention manipulation. Finally, it suggests a possible practical application of the system of an "MRS Template". Overall, the current research is an endeavor to see whether linguistics matters to modern day NLP. Demonstrating linguistically motivated dataset can make a natural language generation model that is highly faithful to the syntactic structure of the original meaning representation, it claims that domain knowledge of linguistics is relevant and sketches a way to develop flexible and controllable models, particularly by not depending extensively on the Attention mechanism.
Semantic scene understanding based human-robot cooperation
Human-robot cooperation is unavoidable in various applications ranging from manufacturing to field robotics owing to the advantages of adaptability and high flexibility. Especially, complex task planning in large, unconstructed, and uncertain environments can employ the complementary capabilities of human and diverse robots. For a team to be effectives, knowledge regarding team goals and current situation needs to be effectively shared as they affect decision making. In this respect, semantic scene understanding in natural language is one of the most fundamental components for information sharing between humans and heterogeneous robots, as robots can perceive the surrounding environment in a form that both humans and other robots can understand. Moreover, natural-language-based scene understanding can reduce network congestion and improve the reliability of acquired data. Especially, in field robotics, transmission of raw sensor data increases network bandwidth and decreases quality of service. We can resolve this problem by transmitting information in the form of natural language that has encoded semantic representations of environments. In this dissertation, I introduce a human and heterogeneous robot cooperation scheme based on semantic scene understanding. I generate sentences and scene graphs, which is a natural language grounded graph over the detected objects and their relationships, with the graph map generated using a robot mapping algorithm. Subsequently, a framework that can utilize the results for cooperative mission planning of humans and robots is proposed. Experiments were performed to verify the effectiveness of the proposed methods. This dissertation comprises two parts: graph-based scene understanding and scene understanding based on the cooperation between human and heterogeneous robots. For the former, I introduce a novel natural language processing method using a semantic graph map. Although semantic graph maps have been widely applied to study the perceptual aspects of the environment, such maps do not find extensive application in natural language processing tasks. Several studies have been conducted on the understanding of workspace images in the field of computer vision; in these studies, the sentences were automatically generated, and therefore, multiple scenes have not yet been utilized for sentence generation. A graph-based convolutional neural network, which comprises spectral graph convolution and graph coarsening, and a recurrent neural network are employed to generate sentences attention over graphs. The proposed method outperforms the conventional methods on a publicly available dataset for single scenes and can be utilized for sequential scenes. Recently, deep learning has demonstrated impressive developments in scene understanding using natural language. However, it has not been extensively applied to high-level processes such as causal reasoning, analogical reasoning, or planning. The symbolic approach that calculates the sequence of appropriate actions by combining the available skills of agents outperforms in reasoning and planning; however, it does not entirely consider semantic knowledge acquisition for human-robot information sharing. An architecture that combines deep learning techniques and symbolic planner for human and heterogeneous robots to achieve a shared goal based on semantic scene understanding is proposed for scene understanding based on human-robot cooperation. In this study, graph-based perception is used for scene understanding. A planning domain definition language (PDDL) planner and JENA-TDB are utilized for mission planning and data acquisition storage, respectively. The effectiveness of the proposed method is verified in two situations: a mission failure, in which the dynamic environment changes, and object detection in a large and unseen environment. 인간과 이종 로봇 간의 협업은 높은 유연성과 적응력을 보일 수 있다는 점에서 제조업에서 필드 로보틱스까지 다양한 분야에서 필연적이다. 특히, 서로 다른 능력을 지닌 로봇들과 인간으로 구성된 하나의 팀은 넓고 정형화되지 않은 공간에서 서로의 능력을 보완하며 복잡한 임무 수행을 가능하게 한다는 점에서 큰 장점을 갖는다. 효율적인 한 팀이 되기 위해서는, 팀의 공통된 목표 및 각 팀원의 현재 상황에 관한 정보를 실시간으로 공유할 수 있어야 하며 함께 의사 결정을 할 수 있어야 한다. 이러한 관점에서, 자연어를 통한 의미론적 환경 이해는 인간과 서로 다른 로봇들이 모두 이해할 수 있는 형태로 환경을 인지한다는 점에서 가장 필수적인 요소이다. 또한, 우리는 자연어 기반 환경 이해를 통해 네트워크 혼잡을 피함으로써 획득한 정보의 신뢰성을 높일 수 있다. 특히, 대량의 센서 데이터 전송에 의해 네트워크 대역폭이 증가하고 통신 QoS (Quality of Service) 신뢰도가 감소하는 문제가 빈번히 발생하는 필드 로보틱스 영역에서는 의미론적 환경 정보인 자연어를 전송함으로써 통신 대역폭을 감소시키고 통신 QoS 신뢰도를 증가시킬 수 있다. 본 학위 논문에서는 환경의 의미론적 이해 기반 인간 로봇 협동 방법에 대해 소개한다. 먼저, 로봇의 지도 작성 알고리즘을 통해 획득한 그래프 지도를 이용하여 자연어 문장과 검출한 객체 및 각 객체 간의 관계를 자연어 단어로 표현하는 그래프를 생성한다. 그리고 자연어 처리 결과를 이용하여 인간과 다양한 로봇들이 함께 협업하여 임무를 수행할 수 있도록 하는 프레임워크를 제안한다. 본 학위 논문은 크게 그래프를 이용한 의미론적 환경 이해와 의미론적 환경 이해를 통한 인간과 이종 로봇 간의 협업 방법으로 구성된다. 먼저, 그래프를 이용한 의미론적 환경 이해 부분에서는 의미론적 그래프 지도를 이용한 새로운 자연어 처리 방법에 대해 소개한다. 의미론적 그래프 지도 작성 방법은 로봇의 환경 인지 측면에서 많이 연구되었지만 이를 이용한 자연어 처리 방법은 거의 연구되지 않았다. 반면 컴퓨터 비전 분야에서는 이미지를 이용한 환경 이해 연구가 많이 이루어졌지만, 연속적인 장면들은 다루는데는 한계점이 있다. 따라서 우리는 그래프 스펙트럼 이론에 기반한 그래프 컨볼루션과 그래프 축소 레이어로 구성된 그래프 컨볼루션 신경망 및 순환 신경망을 이용하여 그래프를 설명하는 문장을 생성한다. 제안한 방법은 기존의 방법들보다 한 장면에 대해 향상된 성능을 보였으며 연속된 장면들에 대해서도 성공적으로 자연어 문장을 생성한다. 최근 딥러닝은 자연어 기반 환경 인지에 있어 급속도로 큰 발전을 이루었다. 하지만 인과 추론, 유추적 추론, 임무 계획과 같은 높은 수준의 프로세스에는 적용이 힘들다. 반면 임무를 수행하는 데 있어 각 에이전트의 능력에 맞게 행위들의 순서를 계산해주는 상징적 접근법(symbolic approach)은 추론과 임무 계획에 있어 뛰어난 성능을 보이지만 인간과 로봇들 사이의 의미론적 정보 공유 방법에 대해서는 거의 다루지 않는다. 따라서, 인간과 이종 로봇 간의 협업 방법 부분에서는 딥러닝 기법들과 상징적 플래너(symbolic planner)를 연결하는 프레임워크를 제안하여 의미론적 이해를 통한 인간 및 이종 로봇 간의 협업을 가능하게 한다. 우리는 의미론적 주변 환경 이해를 위해 이전 부분에서 제안한 그래프 기반 자연어 문장 생성을 수행한다. PDDL 플래너와 JENA-TDB는 각각 임무 계획 및 정보 획득 저장소로 사용한다. 제안한 방법의 효용성은 시뮬레이션을 통해 두 가지 상황에 대해서 검증한다. 하나는 동적 환경에서 임무 실패 상황이며 다른 하나는 넓은 공간에서 객체를 찾는 상황이다.
Generating Semantic Graphs for Natural Language
Zhou, Jiawei Harvard University ProQuest Dissertations & Theses 2023 해외박사(DDOD)
소속기관이 구독 중이 아닌 경우 오후 4시부터 익일 오전 9시까지 원문보기가 가능합니다.
Natural language understanding is a critical capability in achieving advanced artificial intelligent language processing systems such as reading comprehension, question answering, and interactive dialogues. Despite the remarkable progress made by modern deep learning techniques for natural language processing (NLP) in the past decade, machines still lag behind human capacity in deep language understanding. This requires machines to represent and comprehend the underlying meaning, or semantics, from the surface form of language despite its variations and intricacies. Explicit semantic representations of language provide a systematic way of building interpretable and controllable agents with language understanding ability, especially with versatile graph structures. Abstracting away from the surface form of language, the semantic graphs can capture complex semantic phenomena, and provide a structured and consistent way of presenting the underlying meaning of language, which can be utilized for applications that require accurate semantic interpretation. Depending on applications, certain semantic graphs such as functional programs can also be executable for direct machine processing, paving ways for interactive and efficient human-machine communication. However, the complexity of the structured graphs and the expensiveness of expert data annotation pose unique challenges in automating the generation process of these graphs.In this thesis, we develop techniques using machine learning models to generate such semantic graphs for natural language, as well as exploring efficient utilization of these graphs in real applications such as dialogue systems. We first formulate a general framework for text-to-graph generation with an autoregressive process through a carefully designed sequence of actions, and then devise a principled approach that combines the general graph construction process and neural models such as sequence-to-sequence Transformer models and pointer networks with synergy. We apply the proposed method to interpret natural language sentences into abstract semantic graphs, where the end-to-end deep learning model is guided by carefully designed logic-based state machines that manage the graph and action transduction. The hybrid approach injects an effective form of structured inductive bias in the model computation, resulting in high-quality graph generation without complex modeling pipelines. With recent advances of pre-trained language models benefiting from large amounts of unlabeled data, we further study the effective way of merging the benefits of these unstructured models with structured generation of semantic graphs to increase data efficiency. Furthermore, we extend our text-to-graph generation framework for executable semantic graphs that are programs serving as essential building blocks of a reliable task-oriented dialogue system. We propose a novel online semantic parsing paradigm which aims to generate and execute partial semantic graphs simultaneously as the sentence is being revealed. The application enables real-time interpretation of human utterances to accelerate machine response, making human-machine interaction experience more natural. We hope our research on text-to-graph generation and application not only sheds some light on natural language understanding and reliable semantic-aware system building, but also creates further opportunities for interdisciplinary research beyond NLP where symbolic graph-structured data modeling and generation are of vital importance.
Scharp, Danielle Columbia University ProQuest Dissertations & These 2024 해외박사(DDOD)
소속기관이 구독 중이 아닌 경우 오후 4시부터 익일 오전 9시까지 원문보기가 가능합니다.
Background: Persistently elevated hospitalization rates in the home healthcare setting indicate the need to prioritize patients with undertreated conditions that can lead to negative outcomes. Urinary incontinence affects approximately 40% of older adults in home healthcare, yet often remains unaddressed. This leaves older adults with urinary incontinence at risk for potentially serious complications that can lead to emergency department visits, hospitalizations, and mortality. Multiple comorbidities, co-occurring symptoms, and disparities in care fuel the complexity of older adults in the home healthcare setting. The overall purpose of this dissertation was to leverage natural language processing to understand symptom clusters and factors associated with acute care utilization among older adults with urinary incontinence in home healthcare to improve comprehensive assessment, treatment, and outcomes. The aims of this dissertation were to: 1) identify relevant comorbidities among community-dwelling older adults with urinary incontinence; 2) develop and test a natural language processing algorithm to extract symptom information from home healthcare free-text clinical notes for older adults with urinary incontinence and analyze differences by race or ethnicity; 3) identify symptom clusters among older adults with urinary incontinence in home healthcare and examine differences by sociodemographic and clinical correlates; and 4) determine factors associated with the risk of emergency department visits or hospitalizations among older adults with urinary incontinence in home healthcare, including the impact of symptom clusters.Methods: This dissertation comprised four studies: 1) a scoping review of the literature to identify comorbidities to broadly characterize community-dwelling older adults with urinary incontinence, 2) a secondary analysis of cross-sectional electronic health record data using natural language processing to extract symptoms from free-text clinical notes and analyze differences by race or ethnicity using Chi-square tests and logistic regression models, 3) a secondary analysis of cross-sectional electronic health record data using hierarchical clustering to analyze the natural language processing-extracted symptom variables and examine differences in sociodemographic and clinical correlates using Chi-square tests, and 4) a retrospective secondary analysis of electronic health record data to identify factors, including symptom clusters, associated with emergency department visits or hospitalizations using Chi-square tests and backward stepwise logistic regression.Results: In the scoping review, we synthesized findings from 10 studies that identified comorbidities among community-dwelling older adults with urinary incontinence across neurologic, cardiovascular, respiratory, endocrine, genitourinary, musculoskeletal, and psychologic systems. In the natural language processing study, we identified eight symptoms of older adults with urinary incontinence (i.e., anxiety, constipation, dizziness, syncope, tachycardia, urinary frequency/urgency, urinary hesitancy/retention, and vision impairment/blurred vision) that were extracted from free-text clinical notes from approximately 29% of home healthcare episodes. Compared to White patients, home healthcare episodes for Asian/Pacific Islander, Hispanic, and Black patients were less likely to have any symptoms documented in clinical notes. In the clustering analysis, we identified five distinct symptom clusters: Cluster 1 (anxiety), Cluster 2 (broadly symptomatic), Cluster 3 (dizziness and anxiety), Cluster 4 (constipation, anxiety, and dizziness), and Cluster 5 (no symptoms) that correlate with sociodemographic and clinical characteristics. Finally, in the retrospective analysis, we found that Clusters 1-4 had higher odds of emergency department visits or hospitalizations, in addition to home healthcare episodes for Black and Hispanic patients, males, patients with an unhealed skin ulcer, and patients with a urinary tract infection 14 days prior to home healthcare admission.Conclusion: Older adults with urinary incontinence in home healthcare have complex physical and psychosocial needs, increasing the risk of negative outcomes. Improving comprehensive assessment and treatment for older adults with urinary incontinence is an urgent priority, given high hospitalization rates in home healthcare. Leveraging natural language processing, this dissertation identified key symptom clusters and factors associated with emergency department visits or hospitalizations, providing valuable insight for multidimensional interventions. Findings provide preliminary evidence to inform improvements in clinical practice, healthcare policies, and future research to enhance the care of older adults with urinary incontinence and reduce negative outcomes in the home healthcare setting.
Replacement 를 활용한 개체명 인식 모델 학습 데이터 증강 기법
박상희 성균관대학교 일반대학원 2022 국내석사
자연어 처리 분야(NLP, Natural Language Processing)에서 Attention 메커니즘 기반의 Transformer 모델 구조를 활용한 사전 학습된 언어 모델(PLM, Pre-trained Language Model)들이 대거 등장하게 되면서 수 많은 자연어 관련 Task 에서 좋은 성능의 결과를 얻는 모델들을 학습할 수 있게 되었다. 최근에는 이런 사전 학습된 언어 모델들의 파라미터의 수가 점점 커져가면서 Large Scale 을 갖는 모델들이 등장하고 있고, Large-scale Pre-trained Model 을 활용하여 주어진 자연어 문제를 풀고자 할 때 필수 요소 중 하나는 Downstream Task 에 대해서 충분한 Labeled Dataset 을 확보하는 것이다. Fine-Tuning 을 충분히 학습하여 좋은 성능을 갖는 모델을 얻기 위해서는 각각의 Task 에 적합한 충분한 양의 Labeled Dataset 이 필요하지만, 이런 데이터셋을 구축하는 데에는 많은 시간과 비용 및 다수의 훈련된 작업자가 필요하다. 또한 일반적으로 특정한 Task 를 해결하기 위해 구축한 데이터셋은 다른 Task 에는 적용하는데 많은 제약과 어려움이 따른다. 즉 데이터셋의 재활용 측면에서 보면 효율적이지 못하다. 그렇기 때문에 다양한 Augmentation 기법을 통하여 소수의 Labeled Dataset 을 가지고도 좋은 성능을 낼 수 있는 모델을 만드는 방법에 대해서 최근 많은 연구들이 진행되고 있다. 자연어 처리 분야의 대표적인 Task 중 하나인 개체명 인식(NER, Named Entity Recognition)은 자연어 문장에서 사전에 정의되어 있는 개체명으로 사용된 단어를 추출하는 작업을 의미한다. 이런 개체명 인식 모델을 Fine-Tuning 하기 위해서는 역시 많은 양의 Labeled Dataset 이 필요하며, 개채명 인식 모델을 위한 Labeled Dataset 의 경우 각각의 단어들에 대하여 모두 Label 이 존재해야 하기 때문에 비교적 간단한 Task 인 Text Classification 을 위한 Labeled Dataset 구축 보다도 훨씬 더 많은 시간과 비용이 필요하다. 그렇기 때문에 본 연구에서는 개체명 인식 모델을 위한 Augmentation 기법을 연구한다. 각각의 개체명들의 Bag of words 를 기반으로 단어의 교체(Relpacement)를 통한 Augmentation 기법을 제안하며 이와 더불어 기존의 Text Classification 에서 널리 사용된 Augmentation 기법인 EDA 와 AEDA 를 결합한 방법, Self-Training 을 결합한 방법을 추가로 제안한다. 마지막으로, 기존의 Text Classification 분야 등에서 널리 사용된 텍스트 Augmentation 기법과 본 연구에서 제안 기법의 성능을 비교하여, 자연어 처리 분야에서 Fine-Tuning 을 위한 Augmentation 기법은 각 Task 에 알맞는 최적화된 방법을 사용하는 것이 더 좋은 방법임을 제안한다. In the field of natural language processing (NLP), a large number of pre-trained language models (PLMs) of the Attention Mechanism-based Transformer model structure have emerged, allowing us to learn models that achieve good performance on many natural language-related tasks. Recently, as the number of parameters of these pre- learned language models is increasing, models with a large scale pre-trained model are emerging, and one of the essential factors for solving a given natural language problem depends on fine-tuning learning with enough Labeled Dataset. In order to learn Fine-Tuning sufficiently and obtain a model with good performance, a sufficient amount of Labeled Dataset suitable for each task is required, but it takes a lot of time, money, and a large number of workers to build this dataset. In addition, datasets built to address specific tasks generally have many constraints and difficulties in applying them to other tasks. In other words, it is not efficient in terms of recycling. Therefore, many studies have recently been conducted on how to create a model that can produce good performance even with a small number of Labeled Datasets through various Augmentation techniques. Named entity recognition (NER), one of the most representative tasks in the field of natural language processing, refers to the extraction of words used as predefined entity names in natural language sentences. Fine-tuning these object name recognition models also requires a large amount of Labeled Dataset, and Labeled Dataset for dog name recognition models requires a label for each word, so it takes much more time and money than building Labeled Dataset for Text Classification, a relatively simple task. Therefore, in this study, we study the Augmentation technique for the object name recognition model. Based on the Bag of words of each individual name, we propose an augmentation technique through word replacement, along with a method that combines EDA and AEDA, which are widely used in existing Text Classification, and a method that combines Self- Training. Finally, comparing the performance of the text augmentation technique widely used in the field of Text Classification and the proposed technique in this study, we propose that the augmentation technique for Fine-Tuning in the field of natural language processing is a better method to use an optimized method for each task.
Application of Domain-Specific Language Processing for Medical and Chemical Text Data Analysis
Sunho Choi 고려대학교 대학원 2024 국내박사
This thesis covers research on domain-specific language preprocessing techniques and language model for analyzing languages with rules and terms differing from general natural language. The first study focuses on language preprocessing for converting text data in the medical domain into standardized codes. The generation of diagnostic statements automatically from 12-lead electrocardiogram tests can aid clinical purposes; however, for big data research, standardization of diagnostic statements is necessary due to varying interpretation algorithms across vendors. The Common Data Model (CDM) is a standard schema designed to overcome heterogeneity between medical data. Although existing CDM conversion tools can convert diagnostic statements into CDM terminology codes, several limitations remain, such as the requirement for manual validation, inability to extract multiple CDM concepts, and inadequate noise removal. To address this, a fully automated algorithm for converting electrocardiogram diagnostic statement into CDM vocabulary codes was developed and applied to actual medical data. The results of the proposed algorithm were compared with the cosine similarity-based algorithm and rule-based hierarchical algorithm. The second study involves language preprocessing research on the conversion of textual representations of molecular formula structures in the chemistry domain. SMILES (Simplified Molecular-Input Line-Entry System) employs line notation to represent chemical structures, enabling various artificial intelligence analyses. However, its ease of representation is limited, which has led to the proposal of BigSMILES as an alternative method suitable for the representation of macromolecules. Nevertheless, due to the absence of software for generating data using the BigSMILES notation or converting from other notations to BigSMILES, related research remains limited. Thus, this study proposes an automatic representation conversion algorithm for monomers from SMILES notation to BigSMILES notation, providing approximately 5 million monomer BigSMILES notation data generated from this algorithm. The study presents detailed descriptions on a validation process to ensure accuracy, interchangeability, and robustness of the representation conversion process. The third study involves constructing a transformer-based language model for screening novel structures in the chemical field, predicting the properties of polymer structures. Due to the amorphous nature inherent to polymers, accurately predicting their properties prior to physical synthesis poses challenges. Recent research has addressed this issue by pre-training transformer-based language models, such as the polyBERT model, on approximately 100 million virtual molecular structures to learn chemical bonding information. This study aims to fine-tune the pre-trained polyBERT model for predicting a crucial thermal property in the polymer field, the glass transition temperature, addressing the challenge of accurately predicting polymer properties. To screen novel polymer structures, the study adopts a motif library approach based on the principles of polymer generation, integrating motifs into backbone structures to consider the synthesis environment. 본 논문은 일반적인 자연어와 다른 규칙 및 용어를 가지고 있는 특수한 도메인 언어 분석을 위하여, 언어 별로 특화된 전처리 기법 적용과 도메인 특화된 언어 처리 구조에 대한 연구를 다룬다. 첫 번째 연구는 의료 분야에서의 텍스트 데이터를 표준화된 코드로 전환하는 언어 전처리에 대한 연구이다. 12-리드 심전도 검사는 임상 목적에 도움이 되는 진단문을 자동으로 생성할 수 있지만, 출력 기기 별로 상이한 규칙에 의해 진단문을 생성하기에 빅데이터 연구를 위해서는 진단문 데이터를 표준화할 필요가 있다. 공통 데이터 모델(CDM)은 의료 데이터 간의 이질성을 극복하기 위해 설계된 표준 데이터 스키마로, 기존의 자동화 소프트웨어로 진단문 데이터를 CDM표준화 코드로 변환 가능하지만 수동검증이 필요하며, 여러 진단문으로의 매핑이 불가하며, 노이즈 제거가 제대로 되지 않는다는 단점이 있다. 이를 해결하기 위하여 심전도 진단문 데이터의 CDM 용어 코드 변환 완전 자동화 알고리즘을 개발하여 실제 의료 데이터에 적용하였다. 규칙 기반의 코드 변환 알고리즘과 코사인 유사도 기반의 코드 변환 알고리즘과 결과를 비교하였다. 두 번째 연구는 화학 분야에서 분자식 구조의 텍스트 표현기법 간의 변환에 대한 언어 전처리 연구이다. SMILES(Simplified Molecular-Input Line-Entry System)는 라인 표기법을 사용해 화학 구조를 표현할 수 있어 다양한 인공지능 분석에 활용되고 있지만, 고분자 표현에 한계가 있어 이를 극복하기 위해 BigSMILES 표현기법이 새로이 제안되었다. 그러나 BigSMILES 표기법을 적용한 데이터를 생성하거나 다른 표기법으로부터 BigSMILES 표기법으로 변환하는 소프트웨어의 부재로 관련 연구는 미비하다. 따라서 이 연구는 고분자 단량체에 대한 SMILES 표기법 데이터에서부터 BigSMILES 표기법 데이터로의 자동 변환 알고리즘을 개발하고 이 알고리즘으로부터 생성된 약 5백만건의 단량체 BigSMILES 표기법 데이터를 제공한다. 표현기법 변환 과정의 정확성, 상호 호환성, 견고성을 보장하기 위한 검증을 실시하였다. 세 번째 연구는 화학 분야에서 신규 구조를 스크리닝 하기 위해 트랜스포머 기반의 언어 모델을 구축하여 고분자 구조의 특성을 예측하는 연구이다. 고분자가 가지는 무정형의 특징 때문에 실물 합성 이전에 정확한 특성을 예측하는 데에는 어려움이 있다. 최신 연구 중 트랜스포머 기반의 언어 모델인 polyBERT 모델은 이러한 문제를 해결하기 위해 약 1억 개의 가상의 분자 구조로부터 화학적 결합 정보를 미리 학습하였다. 본 연구는 이 미리 학습된 polyBERT 모델을 우리가 풀고자 하는 문제에 대해 미세조정하여 고분자 분야에서 중요한 열적 특성인 유리전이온도를 예측하는 것을 목표로 하며, 신규 고분자 구조를 스크리닝 하기 위해 고분자의 생성 원리에 기반하여 모티프 라이브러리를 구축하고 백본 구조에 조합하는 방식을 채용하여 합성 환경을 고려하도록 한다.
Examining the Korean Semiconductor Industry with Language Models and Graph Networks
최재헌 서강대학교 일반대학원 2024 국내석사
This study explores a methodology for analyzing the network structure of companies in the South Korean semiconductor industry using natural language processing (NLP) and graph neural networks (GNNs). Utilizing textual data from corporate annual reports disclosed in the DART system and stock price data, this approach integrates GPT-3.5-turbo, BERT, and the GraphSAGE model to examine the relationships within the industrial ecosystem. The findings indicate that incorporating natural language information into the graph model improves company classification accuracy compared to using only price information. This suggests that natural language information contains valuable insights into industry relationships that traditional methods may overlook. The proposed methodology offers a framework for combining advanced NLP techniques and GNNs to analyze industrial networks. This approach may have broader applications in supporting data-driven strategy development and decision-making. 본 연구는 자연어 처리 기술과 그래프 신경망을 활용하여 대한민국 반도체 산업 내 기업 간 네트워크 구조를 분석하는 새로운 방법론을 제안한다. 금융감독원 전자공시시스템(DART)에 공개된 기업 사업보고서의 텍스트 데이터와 주가 데이터를 바탕으로, GPT-3.5-turbo, BERT, 그리고 GraphSAGE 모델을 통해 산업 생태계의 관계 구조를 탐색하였다. 분석 결과, 자연어 정보를 활용한 그래프 모델이 가격 정보만을 사용한 경우 대비 기업 분류 정확도 면에서 우수한 성능을 보였다. 이는 자연어 정보가 기존 방식으로는 포착하기 어려운 산업 네트워크의 관계를 효과적으로 반영하고 있음을 시사한다. 본 연구의 의의는 최신 자연어 처리 기술과 그래프 신경망을 결합하여 산업 네트워크 분석의 새로운 프레임워크를 제시한 데 있으며, 이 접근법은 데이터 기반 전략 수립과 의사결정을 지원하는 데 있어 다양한 분야에 폭넓게 응용될 수 있을 것으로 기대된다.
Exploring Question Answering Tasks with the Language Model, BERT
Question Answering (QA) is an automated approach of retrieving the correct answer given a question and documents, which provides a foundation to many other Natural Language Processing (NLP) tasks, such as Natural Language Generation, Natural Language Inference, and Named Entity Recognition. QA in English language datasets has brought great improvements. However, QA systems have not been thoroughly explored in foreign languages or in multi-modality domains, such as in Visual Question Answering and Video Question Answering (Video QA). Applying language models, such as BERT \cite{devlin2018bert} and XLNET \cite{yang2019xlnet}, to foreign language QA tasks requires an understanding of characteristics in the foreign language. Video QA requires a fine-grained understanding of both video and language modalities to answer a given question. In this work, we mainly demonstrate a BERT-based question answering model on a Korean QA dataset. This paper explores the dataset, KorQuAD 2.0 \cite{kim2020korquad}, with the BERT-base-multilingual model released by Google and the Larva-base-cased model released by Naver. We introduce an additional tokenizer to pre-trained models and adopt a negative sampling method during the fine-tuning stage to balance the ratio of positive and negative data samples. In addition, a different size of the window stride is used during the inference to improve the latency. As a result, we achieve 58.21 of exact match (EM) and 77.33 of F1 scores with 1,629 ms inference speed per a query, which largely outperforms the previous baseline of 30.24 EM and 45.96 F1 scores with a 13,484 ms latency speed. Furthermore, we extend the BERT-based QA model to tackle a highly competitive multiple-choice Video QA benchmark dataset, TVQA \cite{lei2018tvqa}. 질의 응답(Question Answering)은 주어진 질의에 대한 정답을 문백에서 자동적으로 추출해내는 기술로 자연어 처리 (Natural Language Processing)의 핵심적인 기술의 하나이며, 자연어 생성, 자연어 추론, 개체명 인식 등의다른 자연어 처리 기술들의 기술적 토대가 된다. 영어로 구성된 SQuAD \cite{rajpurkar2016squad}와 Natural Questions \cite{kwiatkowski2019natural}와 같은 데이터 셋들은 영어에서의 질의 응답 기술에 큰 발전을 가져왔다. 하지만 영어이외의 언어에서의, 그리고 언어 이외의 이미지 질의 응답 혹은 비디오 질의 응답 (Video QA)과 같이 멀티 모달 환경에서의 질의 응답의 문제는 심층적인 탐구를 필요로한다. 기존의 BERT \cite{devlin2018bert} 혹은 XLNET \cite{yang2019xlnet}과 같은 언어 모델을 영어 이외의 언어에 적용하기위해서는 해당 언어의 특성에 대한 이해가 필요하다. 또한 비디오 질의 응답의 경우, 비디오와 자연어 두 가지 모달리티에 대한 심층적인 이해가 필요하다. 이에 본 연구에서는 우리는 BERT 언어 모델을 기반으로 한 한국어에서의 질의 응답 모델을 제안한다. 해당 논문은 Google에서 공개한 BERT-base-multilingual 모델 \cite{devlin2018bert}과, 네이버에서 한국어 관련 대용량 말뭉치에 사전학습하여 공개한 Larva-base-cased 모델 \cite{claf}을 사용하여 한국어 질의 응답 데이터 셋, KorQuAD 2.0에서의 기계 독해 (Machine Reading Comprehension)를 진행한다. 모델 학습 시, 추가적인 형태소 분석기와 네거티브 샘플링 (negative sampling)을 사용하였으며, 추가적으로 추론 시, 학습 때와는 다른 Stride Window 크기를 사용하여 추론 속도 (latency)를 높일 수 있도록 하였다. 그 결과, 기존의 베이스라인이 되는 모델의 성능이었던 EM 점수 30.24점, F1 점수 45.96점, 13,484 ms의 추론 속도 EM 점수 58.21점, F1 점수 77.33 점, 1,629 ms의 추론 속도로 높일 수 있었다. 나아가, 해당 논문에서는 BERT를 기반으로 하는 질의 응답 모델을 비디오 질의 응답 데이터 셋, TVQA \cite{lei2018tvqa}에 적용할 수 있도록 확장하는 방식을 함께 소개한다.
Chang, Angel Xuan ProQuest Dissertations & Theses Stanford Universit 2015 해외박사(DDOD)
소속기관이 구독 중이 아닌 경우 오후 4시부터 익일 오전 9시까지 원문보기가 가능합니다.
The ability to form a visual interpretation of the world from natural language is pivotal to human communication. Similarly, from a computational perspective, mapping descriptions of scenes to 3D geometric representations is useful in many areas such as robotics, interior design and even education. Text to 3D scene generation is a task which addresses this problem space. A user provides natural language as input and the output is a plausible 3D scene interpretation. This is a challenging domain connecting NLP and computer graphics. The few existing systems for generating 3D scenes from text are severely restricted in scope and robustness. The key challenge, and focus of this dissertation, is in incorporating prior knowledge which is essential for successfully generating 3D scenes from highly under-specified natural scene descriptions. Prior systems do not leverage such priors, requiring explicit and verbose language.This dissertation formalizes and decomposes the problem of text to 3D scene generation, and describes the implementation of a new text to scene framework that enables incorporation of priors learned from data. I propose viewing the problem as extracting a set of explicit constraints from input descriptions, combining them with learned common-sense priors for inferring implicit constraints, and then selecting objects and positioning them to satisfy the constraints and generate plausible scenes. To capture the basic semantics of a scene, I define the scene template representation which consists of the objects, their attributes, and relations between them. A given scene template, can be used to generate many matching scenes whose plausibility can be scored. I then define two subtasks: scene template parsing where templates are parsed from natural language, and scene inference where templates are expanded with additional objects and spatial constraints. From the expanded scene templates, my system grounds object references by selecting appropriate 3D models, and then computationally arranges the selected objects to satisfy spatial constraints and maximize plausibility. I then demonstrate how to extend the text to scene system to allow iterative refinement of the generated scenes using natural language commands to add, remove, replace, and manipulate objects.In building the text to scene framework presented here, I learn a set of common-sense priors using datasets of 3D models and scenes and evaluate their impact on the quality of generated 3D scenes. From the scene data, I collect several sets of priors: (1) object occurrence priors to determine what other objects should be present, (2) support and relative position priors to determine where objects are placed, and (3) attachment priors to determine how objects are attached. In addition, I collect a new dataset of 3D scenes corresponded with textual descriptions and use it to learn how to ground spatial relation language and object descriptions. I provide this dataset to the community and perform an empirical evaluation of the output of the system against manually designed scenes and simpler rule-based baselines. Using a perceptual evaluation study, I show that the system can generate high quality 3D scenes given natural language input. This initial step in connecting language with 3D geometry opens up many areas of research for bridging the gap between language, semantics and geometry.