RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • BERT의 지식 전이학습 모형을 이용한 비즈니스 모델 캔버스(BMC) 자연어 분석 연구

        신병규 경희대학교 대학원 2021 국내박사

        RANK : 247807

        BERT의 지식 전이학습 모형을 이용한 비즈니스 모델 캔버스(BMC) 자연어 분석 연구 비즈니스 모델(Business Model)은 기업이 비즈니스를 어떻게 수행할 것인가에 대한 설계도이며 고객에게 제품과 서비스를 제공하여 수익을 창출하는 일련의 과정을 설명하는 것이다. 그러나 비즈니스 모델의 중요성에도 불구하고 고객이 원하는 제품을 파악하지 못해 시장 진입에 실패하는 경우가 50% 가까이 발생하고 있다. 비즈니스 모델이 부족하다는 것은 기업의 생존에 필요한 수익을 기대하기 어렵고 성장에 한계가 있다는 의미이다. 이와 같은 실패 요인은 비즈니스 모델이 중요한데도 불구하고 스타트업 기업을 비롯하여 국내 기업의 99%가 50인 미만의 중소기업이기 때문에 제대로 된 비즈니스 모델을 수립하는 데 한계가 있다. 즉, 기업의 비즈니스 모델을 정확하게 수립하고 평가할 수 있다면 중소기업이나 스타트업 기업의 비즈니스 성공 확률은 상승할 것으로 기대된다. 비즈니스 모델을 수립하고 평가하기 위해 접근할 수 있는 툴이 있으면 대다수의 중소기업에 도움이 될 것이다. 비즈니스 모델 캔버스(BMC, Business Model Canvas)는 고객 세그먼트, 가치제안, 채널, 고객관계, 수익원, 핵심자원, 핵심활동, 핵심파트너, 비용구조를 9개 블록으로 나누어 한 장의 캔버스에 요약한 모델이다. 비즈니스 모델 캔버스는 기업이 목표로 하는 고객에게 기업의 핵심역량을 통해 만든 핵심가치를 어떻게 전달하여 수익을 창출하는지를 직관적으로 파악할 수 있도록 비즈니스 모델을 작성할 수 있는 편리한 도구이다. 비즈니스 모델 캔버스는 기업이 어떻게 고객가치를 만들고, 전파하는지, 그리고 이로 인해 어떻게 수익을 창출하는지에 대한 원리를 이해하고 유용하게 사용할 수 있는 도구이다. 본 연구에서는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 활용하여 지식 전이학습을 통한 비정형데이터인 비즈니스 모델 캔버스를 객관적으로 평가하는 모델을 개발하였다. BERT 모델을 이용하여 건설제조업과 IT기업의 비즈니스 모델 캔버스로부터 자동으로 비즈니스 모델을 추출한 후, 이를 비즈니스 모델 평가에 직접 활용하는 평가모델을 제안하고, 이에 대한 성능을 검증하였다. 이를 위해 506개 건설제조업과 542개 IT기업의 비즈니스 모델 캔버스 데이터를 수집하였다. 분석에는 트랜스포머(Transformer) 기반 딥러닝 NLP(Natural Language Processing) 중 대표적인 BERT 모델을 사용하였다. BERT는 사전학습(pre-training) 과정을 거쳐서 컴퓨터에 대용량의 언어를 이해시켰다. 이후에 지식 전이과정을 통해서 사용 목적에 맞게 분야별 언어를 집중적으로 학습하는 파인튜닝(fine-tuning)을 실시하였고, 건설제조업과 IT기업의 BMC 모델을 이해할 수 있게 학습시켰다. SKT-Brain에서 사전학습 시킨 한국어 BERT 모델을 기반으로 비즈니스 모델 캔버스의 구성요소에 대한 평가를 분류하기 위해 전이학습(Transfer Learning)을 통해 파인튜닝을 실행하였다. 본 연구는 비정형 데이터 비즈니스 모델 캔버스의 자연어 분석을 통해 비즈니스 모델 지수를 예측하는 것이다. 분석절차는 한국어 위키사전과 한국어 뉴스로 사전학습을 한 KoBERT에 비즈니스 모델 캔버스 비정형 데이터를 학습시켜 비즈니스 모델 지수를 예측하였다. 하이퍼 파라미터 파인 튜닝은 AdamWoptimizer를 사용하였고, 학습은 총 50 epoch, minibatch 사이즈는 32, 드롭아웃은 0.1, 학습률 2e-5, L2정규화 계수는 5e-5, weight decay를 L2 정규화로 0.01, 모델 구현과 실행은 python 3.7 pytorch 1.8.0 CUDA11.1를 사용하였다. 예측 모델 평가는 9개의 비즈니스 모델 캔버스의 구성요소를 독립적인 요소로 보고, Hold-Out 검증을 통해 train data와 test data를 7대3으로 구분하여 랜덤하게 진행하였다. 모델평가는 오분류표를 이용하여 정확도를 계산하였고, 교차 엔트로피를 이용하여 로스(loss)계산을 하였다. 비즈니스 모델 캔버스 9개 구성요소의 5라벨 평균 정확도는 건설제조업이 0.606이고 IT기업은 0.508이다. 근접 라벨의 평균 정확도는 건설제조업과 IT기업 모두 0.933이다. 본 연구의 학문적 의의는 기업 혁신이나 사업계획서를 바탕으로 하는 비정형데이터인 비즈니스 모델 캔버스 데이터를 KoBERT 모델을 사용하여, 기업의 비즈니스 모델 평가에 대한 예측 모델을 최초로 개발하여 연구하였다는 것이다. 이는 비즈니스 모델을 평가하고 이를 바탕으로 기업이 목표로 하는 경영 혁신을 이룰 수 있는 계기가 될 것으로 기대한다. 실무적 의의는 비즈니스 모델 캔버스 데이터의 비정형 텍스트 데이터를 이용하여, 자연어 처리 딥러닝 모델을 기반으로 산업 현장에 적용할 수 있는 평가 모델을 개발함으로써 실무적으로 유용하게 이용될 수 있을 것으로 예상된다. 또한, 제안된 모델의 응용으로 비즈니스 모델 자기 진단시스템을 제안하였다. 비즈니스 모델 자기 진단시스템을 이용하면 기업은 전문가의 도움 없이 비즈니스 모델 분석을 하고 개선 사항을 파악할 수 있을 것으로 기대된다. 비즈니스 모델 9개 블록 요인에 대한 점수를 도출하여 선도업체나 동종업종과 비교하여 자사의 강점과 보완 사항을 파악하고 미래 전략을 수립하는 데 기여하도록 하였다. 본 연구의 한계점 및 향후 연구는 다음과 같다. 비즈니스 모델 캔버스의 9개 요소가 개별 기업의 노하우가 담긴 내용이 많고, 회사 내부 정보에 대한 데이터이기 때문에 폭넓은 산업을 대상으로 하지 못하고 건설제조업과 IT기업만을 대상으로 데이터를 수집하여 연구한 점이다. 향후 건설제조업과 IT기업 이외의 타 산업의 비즈니스 모델 구성요소에 대한 데이터를 수집하여 예측 정확도의 차이가 비즈니스 모델 구성요소의 요인별 특성인지 산업 도메인 차이 인지를 비교하는 연구가 필요하다. 본 연구를 바탕으로 BERT기반 BMC모델을 활용하여 사업계획서, 인사평가, 제안서 분석, 중장기 전략 등 회사 경영에 전반적으로 적용한다면 맨파워가 부족한 많은 중소기업이나 스타트업 기업에게 큰 도움이 될 것으로 기대된다. 주제어: 비즈니스 모델, 비즈니스 모델 캔버스, BERT, 전이학습, 자연어 분석, 딥러닝, 텍스트 마이닝 Text Analysis of Business Model Canvas Using BERT's Knowledge Transfer Learning A business model is a blueprint for how a company will conduct business and describes a series of processes that generate revenue by providing products and services to customers. However, despite the importance of the business model, nearly 50% of the cases fail to enter the market because they do not understand the product they want. The lack of a business model means that it is difficult to expect the profits necessary for the survival of a company and there is a limit to growth. Despite the importance of the business model, there is a limit to establishing a proper business model because 99% of domestic companies, including start-ups, are small and medium-sized enterprises (SMEs) with fewer than 50 employees. In other words, if a company's business model can be accurately established and evaluated, the probability of business success of SMEs or start-ups is expected to increase. Most small businesses will benefit from having tools they can access to build and evaluate their business models. Business Model Canvas(BMC) is a model that summarizes Customer Segments, Value Propositions, Channels, Customer Relationships, Revenue Streams, Key Resources, Key Activities, Key Partners, Cost Structure and cost structure into 9 blocks on one canvas. The business model canvas is a convenient tool that allows you to intuitively understand how to generate profits by delivering core values to customers based on the company's core competencies to target customers. The business model canvas is a tool that can be useful and understand the principles of how a company creates, disseminates, and monetizes customer value. In this study, using the BERT (Bidirectional Encoder Representations from Transformers) model, a model was developed to objectively evaluate the business model canvas, which is unstructured data through knowledge transfer learning. After automatically extracting a business model from the business model canvas of the construction manufacturing industry and IT company using the BERT model, an evaluation model that directly uses it for business model evaluation was proposed and its performance was verified. For this purpose, business model canvas data of 506 construction and manufacturing industries and 542 IT companies were collected. For the analysis, a representative BERT model among Transformer-based deep learning NLP (Natural Language Processing) was used. BERT made the computer understand a large amount of language through a pre-training process. After that, fine-tuning was conducted to intensively learn languages for each field according to the purpose of use through the knowledge transfer process, and the BMC model of the construction manufacturing industry and IT companies was learned to be understood. Fine tuning was performed through transfer learning to classify the evaluation of the components of the business model canvas based on the Korean BERT model trained in advance by SKT-Brain. This study predicts the business model index through natural language analysis of the unstructured data business model canvas. As for the analysis procedure, the business model index was predicted by learning the business model canvas unstructured data in KoBERT, which was previously studied with Korean wiki dictionary and Korean news. For hyperparameter fine tuning, AdamWoptimizer was used, training was performed for a total of 50 epochs, minibatch size was 32, dropout was 0.1, learning rate was 2e-5, L2 regularization coefficient was 5e-5, weight decay was 0.01 for L2 regularization, model implementation and Execution was performed using python 3.7 pytorch 1.8.0 CUDA11.1. For the prediction model evaluation, the 9 business model canvas components were regarded as independent elements, and train data and test data were divided 7 to 3 through hold-out verification and randomly performed. For model evaluation, accuracy was calculated using a misclassification table, and loss was calculated using cross entropy. The average accuracy of the 5 labels of the 9 components of the business model canvas is 0.606 for the construction and manufacturing industry and 0.508 for the IT company. The average accuracy of proximity label is 0.933 for both construction manufacturing and IT companies. The academic significance of this study is that the business model canvas data, which is unstructured data based on corporate innovation or business plan, was used for the first time to develop and study a predictive model for corporate business model evaluation using the KoBERT model. It is expected that this will serve as an opportunity to evaluate the business model and achieve the management innovation targeted by the company based on it. The practical significance is expected to be practically useful by developing an evaluation model that can be applied to industrial sites based on a natural language processing deep learning model using the unstructured text data of the business model canvas data. In addition, a business model self-diagnosis system was proposed as an application of the proposed model. By using the business model self-diagnosis system, companies are expected to be able to analyze business models and identify improvements without the help of experts. By deriving scores for the 9 business model block factors, we compared them with leading companies or the same industry to identify their strengths and complements and contribute to establishing future strategies. The limitations of this study and future research are as follows. Because the 9 elements of the business model canvas contain a lot of the know-how of individual companies and are data about company internal information, it is not possible to target a wide range of industries, but only the construction manufacturing industry and IT companies. In the future, it is necessary to collect data on business model components of industries other than the construction manufacturing industry and IT companies to compare whether the difference in prediction accuracy is a characteristic of each factor of the business model component or a difference in the industry domain. Based on this study, if the BERT-based BMC model is applied to overall company management such as business plans, personnel evaluation, proposal analysis, and mid- to long-term strategies, it is expected that it will be of great help to many SMEs and startups lacking manpower. Key words: Business Model, Business Model Canvas, BERT, Transfer Learning, Natural Language Analysis, Deep Learning, Text Mining

      • Topic modeling based Siamese-LSTM-BERT model for semantic document similarity

        김동욱 Graduate School, Yonsei University 2022 국내석사

        RANK : 247807

        BERT는 다양한 자연어 처리 작업에서 우수한 성능을 보여주며, 풍부한 표현의 텍스트 임베딩을 생성한다. 그러나 BERT에 적용가능한 텍스트의 길이가 제한되기 때문에 길이가 짧은 문장들에 대해서만 연구가 주로 진행되었다. BERT 기반의 문서 임베딩 생성을 위한 여러 시도가 있었지만, 문서 내용을 발췌하여 문서의 일부분만으로만 임베딩을 생성하였다. 문서 발췌 방법은 문서의 정보 손실을 발생시키기 때문에 정확한 문서 임베딩을 형성하는 데는 한계가 있다. 문서의 발췌 정보를 사용하는 방법은 문서 구조에 대한 경험적인 지식이나 문서 내 중요한 부분을 미리 알아야 하는 조건이 요구된다. 그러나, 특정 도메인에 대한 문서의 경우 전문적인 도메인 지식이 부족할 경우 문서에서 중요한 내용을 알기 어려우며 문서의 유형이 다를 때마다 임베딩 할 문서의 위치를 매번 변경해야 하며, 잘못된 부분을 발췌할 경우 정확하지 않은 문서 임베딩이 생성될 수 있다. 본 연구에서는 BERT를 기반으로 길이가 긴 문서를 위한 문서 임베딩 방법을 제안한다. 연구에서 제안한 모델은 문서를 세그먼트로 나누고 이를 각각의 시퀀스 상태로 간주한다. 이 시퀀스는 LSTM을 통해 하나의 문서 임베딩으로 표현될 수 있으며, 문서의 전체적인 정보를 사용하는 데 도움을 줄 수 있다. 그리고 도메인에 적합한 문서 임베딩 생성을 위해 토픽 모델링을 사용하여 각각의 세그먼트에 대해서 토픽 분포 정보를 결합하여 도메인에 특화된 문서 임베딩을 생성하였다. 제안된 방식의 모델은 Siamese Network를 사용하여 토픽 모델링을 통해 추론된 토픽 분포 정보와 BERT를 통해 추론된 세그먼트가 결합된 문서 임베딩을 기반으로 문서 간의 유사성을 판별하는 작업을 수행한다. 또한, 기존 BERT의 적용가능한 최대 길이 문제를 개선하여 문서의 로컬 정보를 임베딩에 사용하는 대신 문서의 전역 정보를 기반으로 임베딩을 생성할 수 있도록 하고, 토픽정보를 활용해 도메인에 특화된 문서의 유사성 판별에 기존 연구방법론 보다 향상된 결과를 보여준다. BERT shows the state of art in various natural language processing tasks and generates text embedding of rich expressions. However, since the length of text applicable to BERT is limited, research has been mainly conducted only on short sentences. There have been several attempts to generate BERT-based document embedding, but embeddings were generated only with a part of the document by extracting the contents of the document. Since document extraction methods cause loss of information on documents, there is a limit to forming accurate document embedding. The method of using document excerpt information requires empirical knowledge of the document structure or conditions for knowing important parts of the document in advance. However, for documents for a particular domain, lack of professional domain knowledge makes it difficult to know important content in the document, and whenever the type of document differs, the location of the document to be embedded must be changed every time, and inaccurate document embedding may be generated. This study proposes a document embedding method for long documents based on BERT. The model proposed in the study divides the document into segments and regards it as each sequence state. This sequence can be expressed as a single document embedding through LSTM and can help use the document's overall information. In addition, to generate document embedding suitable for the domain, topic distribution information was combined for each segment using topic modeling to generate document embedding specific to the domain. The proposed model uses the Siamese Network to determine the similarity between documents based on document embedding that combines topic distribution information and segments. In addition, it improves the maximum applicable length problem of existing BERT so that embeddings can be generated based on global information of documents instead of using only part of documents for embedding and combines topic distribution information with document embedding to show better results than existing methodologies.

      • BERT를 활용한 ESG 정성적 요소 분석을 통한 ESG 등급 검증 방안 : 언론보도 데이터 기반으로

        강철원 서울과학기술대학교 2024 국내석사

        RANK : 247807

        제 목 : BERT를 활용한 ESG 정성적 요소 분석을 통한 ESG 등급 검증 방안 : 언론보도 데이터 기반으로 ESG는 환경, 사회, 지배구조를 평가하는 개념으로 기업의 지속가능경영을 평가 하는 중요한 지표로 자리 잡고 있다. 기존의 ESG 평가는 주로 기업의 재무적 수치와 ESG 관련 정량적 정보에 의존했지만, 최근에는 정량적 평가 외에 빅데이터를 활용한 ESG 정성적 평가의 중요성이 강조되고 있다. 언론보도 데이터는 기업의 환경, 사회, 지배구조에 관련된 ESG 정보를 담고 있어 ESG 평가의 중요한 자료로 활용할 수 있다. 특히, 언론보도 데이터는 기업의 미시적인 정보까지 다각적으로 제공하여 더욱 정확한 ESG 평가를 가능하게 한다. 뿐만 아니라 BERT와 같은 LLM을 활용한 자연어 처리 기술의 발전으로 인해, 언론보도 데이터를 효과적으로 분석하여 기업의 ESG 등급을 예측하는 연구가 가능하다. 본 연구는 기업의 ESG 등급을 예측하기 위한 방법론을 제안하며, 이를 위해 언론보도 데이터와 자연어 처리를 위해 BERT를 활용하였다. 언론보도에는 기업의 ESG에 영향을 미치는 다양한 정보가 포함되어 있으며, 이를 기반으로 기업의 ESG 성과에 대한 정성적인 특성을 분석한다. BERT는 언어의 문맥을 이해하는 데 뛰어난 성능을 가진 LLM로써, 언론보도 데이터를 활용하여 기업의 ESG 요소 분류와 감성 분석을 진행하고, 이를 기반으로 기업의 E, S, G 정성적 요소 지수를 산출하는 데 활용한다. 이를 위해 검색 플랫폼 Google에서 BERT 모델의 학습용 언론보도 데이터 140,004건과 언론보도 플랫폼 빅카인즈에서 기업별 E, S, G 정성적 요소 지수 산출을 위한 언론보도 데이터 334,161건을 수집하고, 2021년부터 2022년 까지의 ESG 등급 데이터를 수집하여 연구에 활용하였다. ESG 요소 분류에서는 다양한 BERT 모델(Multilingual BERT, KoBERT, KoELECTRA-base-v3, KPF-BERT) 및 BERT 기반의 Ensemble을 사용하여 성능을 비교한 결과 BERT Ensemble이 Accuracy는 98.28%, F1-score는 98.21%, Precision은 98.27%, Recall은 98.15%로 가장 높은 성능을 보였고, 감성 분석에서도 BERT Ensemble이 Accuracy는 99.64%, F1-score는 99.62%, Precision은 99.63%, Recall은 99.62%로 가장 높은 성능을 나타냈다. 마지막으로 ESG 등급 예측에서는 2021년 E, S, G 등급 총 3개의 독립변수를 활용한 예측모형과 2021년 E 등급, S 등급, G 등급, E 정성적 요소 지수, S 정성적 요소 지수, G 정성적 요소 지수 총 6개의 독립변수를 활용한 예측모형의 성능 비교에서 Accuracy는 28.94%, F1-score는 38.22%, Precision은 32.94%, Recall은 31.35%로 큰 폭으로 성능 향상을 보였다. 이를 통해 E, S, G 정성적 요소 지수가 ESG 등급 예측에 기여하는 것으로 확인하였다. 이러한 결과는 기업의 재무적인 수치 외에도 언론보도 데이터를 활용하여 ESG 정성적 요소 분석을 통해 기업의 ESG 평가가 가능할 것으로 기대된다. ESG rating verification method through ESG qualitative element analysis using BERT : Based on media report data ESG is a concept that evaluates the environmental, social, and governance structure, and has become an important indicator for evaluating a company's sustainable management. Existing ESG evaluations mainly relied on company financial figures and ESG-related quantitative information, but recently, in addition to quantitative evaluations, the importance of qualitative ESG evaluations using big data has been emphasized. Media report data contains ESG information related to the company's environmental, social, and governance structure and can be used as important data for ESG evaluation. In particular, media coverage data provides diverse microscopic information about companies, enabling more accurate ESG evaluation. In addition, due to the development of natural language processing technology using LLM such as BERT, it is possible to conduct research to predict a company's ESG rating by effectively analyzing media coverage data. This study proposes a methodology to predict a company's ESG rating, and for this purpose, BERT was used for media coverage data and natural language processing. Media reports contain a variety of information that affects a company's ESG, and based on this, qualitative characteristics of a company's ESG performance are analyzed. BERT is an LLM with excellent performance in understanding the context of language. It uses media report data to classify and analyze corporate ESG factors and calculates the company's E, S, G qualitative factor index based on this. Use it to To this end, we collected 140,004 pieces of media report data for training of the BERT model from search platform Google and 334,161 pieces of media report data for calculating E, S, G qualitative factor indices for each company from media report platform Bigkinds, and collected data from 2021 to 2022. ESG rating data up to was collected and used for research. In ESG factor classification, the performance was compared using various BERT models (Multilingual BERT, KoBERT, KoELECTRA-base-v3, KPF-BERT) and BERT-based Ensemble, and the BERT Ensemble achieved an Accuracy of 98.28% and an F1-score of 98.21%, Precision showed the highest performance at 98.27% and Recall at 98.15%, and in sentiment analysis, BERT Ensemble showed the highest performance at Accuracy at 99.64%, F1-score at 99.62%, Precision at 99.63%, and Recall at 99.62%. Lastly, in ESG rating prediction, the prediction model using a total of three independent variables in E, S, and G grades in 2021 and in the 2021 performance comparison of the predictive model using a total of six independent variables: E, S, G, E qualitative factor index, S qualitative factor index, and G qualitative factor index, Accuracy showed a significant improvement in performance at 28.94%, F1-score at 38.22%, Precision at 32.94%, and Recall at 31.35%. Through this, it was confirmed that the E, S, and G qualitative factor indices contribute to predicting ESG ratings. These results are expected to make it possible to evaluate a company's ESG through qualitative ESG element analysis using media coverage data in addition to the company's financial figures.

      • Developing zero anaphora resolution system based on deep learning technology

        김영태 Graduate School, Yonsei University 2020 국내박사

        RANK : 247807

        BERT is a general language representation model that enables systems to utilize deep bidirectional contextual information in natural language texts. Good word and phrase embeddings, when used as the underlying input representation, have been shown to boost the performance in language tasks. This is what is demonstrated by BERT. BERT exploits attention mechanism extensively based upon the sequence transduction model Transformer. BERT is one of the most advanced and complex models that makes use of the most recent state-of-the-art techniques in deep learning. It is necessary to achieve high performance in the task of zero anaphora resolution (ZAR) for complete understanding of texts in Korean, Japanese, Chinese, etc. Influenced by success of deep learning, models based on this technology began to be introduced recently in building ZAR systems. However, the objective of building a high quality ZAR system is far from being achieved even by using these models. To overcome an obstacle in improving ZAR performance, we have proposed to exploit BERT in designing a new model for ZAR. This approach has not been taken by others in developing a ZAR system yet. Specifically, we have chosen to use the fine-tuning approach in utilizing a BERT made available after pre-training. To demonstrate the advantages of our proposed approach by performance comparison, we built ZAR systems based on deep learning models without using BERT. We also implemented the ZAR models suggested by other researchers that make use of deep learning techniques. The performance comparisons of our proposed model with these other models have revealed that our proposed model is superior to those of others. We also experimented with various neural network architectures added on top of BERT to develop our ZAR system. It was observed that adding a complex architecture is more advantageous in improving the performance. This is a new finding related to the use of BERT for language tasks. It was also found that a BERT pre-trained solely with Korean corpus is superior to a multi-lingual BERT. We have sought the end-to-end learning paradigm by disallowing any use of hand-crafted features or dependency-analysis features. Experimental results show that the BERT-based models we propose can result in large performance improvement in ZAR over other deep learning models introduced by other researchers. BERT는 시스템이 자연어 텍스트에서 양방향 양방향 컨텍스트 정보를 활용 할 수 있게 하는 일반 언어 표현 모델입니다. 좋은 단어와 구, 절에 대한 임- 베딩을 기본 입력 표현으로 사용할 때 언어 작업의 성능을 향상시키는 것으 로 나타났습니다. 이것이 BERT가 보여주는 것입니다. BERT는 시퀀스 변환 모 델 Transformer를 기반으로 광범위하게 어텐션 메커니즘을 활용합니다. BERT 는 최신 딥러닝 기술을 활용하는 가장 발전된 복잡한 모델 중 하나입니다. 한국어, 일본어, 중국어 등의 문장을 완전히 이해하기 위해서는 ZAR (Zero Anaphora Resolution) 작업에서 높은 성능을 달성해야 합니다. 딥러닝의 성공에 영향을 받아 이 기술을 기반으로 한 모델들이 최근 ZAR 시스템에 도입되기 시작했습니다. ZAR 시스템. 그러나 고품질 ZAR 시스템 구축은 이러한 모델을 사용하더라도 달성 할 수 없습니다. 우리는 ZAR 성능 향상의 장애를 극복하기 위해 ZAR을 위한 새로운 모델 을 설계 할 때 BERT를 활용할 것을 제안했습니다. 이 접근법은 아직 다른 ZAR 시스템 개발에서 채택되지 않았습니다. 특히, 우리는 사전 훈련 후 제공 되는 BERT를 활용하기 위해 미세 조정 방법을 사용하기로 결정했습니다. 성 능 비교를 통한 제안 된 접근 방식의 장점을 보여주기 위해 BERT를 사용하 지 않은 딥러닝 모델을 기반으로 ZAR 시스템을 구축했습니다. 또한 딥러닝 기술을 사용하는 다른 연구자들이 제안한 ZAR 모델도 구현했습니다. 제안 된 모델과 이러한 다른 모델의 성능을 비교 한 결과 제안 된 모델이 다른 모델 보다 우수합니다. 또한 ZAR 시스템을 개발하기 위해 BERT 위에 다양한 신경망 아키텍처를 추가한 실험을 했습니다. 복잡한 아키텍처를 추가하는 것이 성능 향상에 더 유리하다는 것이 관찰되었습니다. 이것은 언어 작업에 BERT를 사용하는 것과 관련된 새로운 발견입니다. 또한 한국어 말뭉치로만 사전 훈련 된 BERT가 다 국어 BERT보다 우수하다는 것도 발견되었습니다. 우리는 수작업으로 만들어진 자질정보나 의존관계 분석 결과를 사용하지 않는 end-to-end 학습 패러다임을 추구했습니다. 실험 결과에 따르면 우리가 제안한 BERT 기반 모델이 다른 연구에서 소개한 딥러닝 모델보다 ZAR의 성 능을 크게 향상시킬 수 있음을 보여줍니다.

      • BERT와 Llama를 활용한 국내 학술지 논문의 자동분류 성능 비교

        강광선 경희대학교 테크노경영대학원 2024 국내석사

        RANK : 247807

        BERT와 Llama를 활용한 국내 학술지 논문의 자동분류 성능 비교 경희대학교 테크노경영대학원 AI기술경영학과 강 광 선 초거대 인공지능 오픈 AI사의 ChatGPT의 열풍으로 다양한 LLM 모델이 발표되었 다. 2023년 2월 발표한 메타의 Llama 모델은 연구 커뮤니케이션에 오픈 하면서 거 대 언어 모델의 생태계를 활성화하였다. Llama2는 SFT, RLHF를 반복 학습하여 ChatGPT 3.5와 유사한 성능을 구현 하면서 상업적으로도 이용한 모델이다. 문서 자동분류 분야에 많이 이용되고 있는 Bert 모델과 최신 LLM 모델인 Llama2 모델 을 비교하여 Llama2 모델이 Bert 모델에 대비 문서 자동분류에서 성능이 향상되었 는지 검증하려고 한다. 학습데이터는 AI-HUB에 ‘논문자료 요약’ 데이터셋 사용하였 다. 학습데이터는 1995년부터 2020년까지 데이터 16만건이며 대상 분류는 한국연구 재단의 연구 분야 분류기준으로 8개 분류로 정의되어 있다. 본 연구를 위한 python 프로그램을 작성하였으며 Bert, Llama2의 학습 및 자동분류 성능 평가를 실행하였 다. 본 실험의 결과는 학습데이터의 오차의 경우 Short model의 경우 Bert가 더 낮 았고 middle, long model의 경우 Llama2가 더 낮았다. 학습데이터 정확도의 경우 short, middle, long model에서 Llama2가 Bert 보다 높은 정확도를 보였다. 행렬 분 석한 결과 Bert의 경우 사회과학, 공학, 농수해양에서 높았으며 Llama2는 인문학, 자연과학, 의약학, 예술체육, 복합학에서 빈도가 높게 나왔다. 분류 평가에서 short 모델의 경우 Bert가 Llama2보다 정밀도, 재현율, F1 스코어에서 우세한 결과가 나 왔다. middle, long 모델의 경우 Llama2가 Bert 보다 정밀도, 재현율, F1 스코어에 서 우세한 결과가 나왔다. 두 모델의 유의수준 5%의 쌍체 비교 t-검정을 실시하였다. short 모델은 성능 차 이가 없었고 middle 모델의 경우 정밀도는 성능 차이가 있고 재현율, F1 스코어는 차이가 없는 것으로 나왔다. long 모델의 경우 재현율은 성능 차이가 없고 정밀도, F1 스코어가 성능 차이가 있는 것으로 나왔다. 문서 자동 분류 모델 선택시 입력 길이가 Short 텍스트일 경우 Bert 모델, Long 텍스트일 경우 Llama2 모델의 사용 을 고려할 필요가 있다. 자동분류 모델 선택시 입력 데이터 길이에 따라 지표 판단 의 기준이 되는 실증분석 결과를 제시 하였다. 향후 연구에서는 다양한 LLM 모델의 활용해 보고 제로샷(Zero-shot) 및 퓨샷 (Few-shot) 학습을 이용한 문서 자동분류를 영역으로 연구하고자 한다. 주제어 : 인공지능, 자동분류, BERT, Llama, LLM

      • A BERTopic Use Case and the Proposal for BERT-SNA as Downstream of BERT: Applied to the Autonomous Vehicle Liability Issue

        JinWoo Ha 숭실대학교 대학원 2023 국내석사

        RANK : 247807

        이 논문은 자율주행체 책임 문제에 대한 수용성 탐색에 유용한 텍스트 마 이닝 접근법을 활용한다. 책임 문제에 대한 동료 검토된 논문이 증가하고 있음에도 각국은 책임 규칙 제정에 큰 진전을 이루지 못하고 있다. 텍스트 마이닝은 이해관계자들의 수용성을 탐색하고 문제에 대한 인사이트를 제공 하는 데 유용할 수 있다. 그러나 선행연구들은 문맥 정보 보존의 중요성과 데이터셋의 크기에 따라 다른 방법을 적용할 필요성에 거의 관심을 기울이 지 않는 경향이 있어왔다. 따라서 이 논문은 사전 학습된 언어 모델의 문맥 임베딩에 기반한 접근법을 활용한다. 이 접근법에서는 큰 데이터셋에는 최 신 토픽 모델링 프레임워크인 BERTopic을, 작은 데이터셋에는 사전 학습 된 BERT 변형의 다운스트림 작업으로서 BERT-SNA를 적용한다. 대중적 인 토픽 모델링 알고리즘인 LDA에 비한 BERTopic의 우수성은 이미 자연 어처리 도메인에서 실증됐다. 한편, BERT-SNA가 데이터의 문맥 정보를 잘 반영하는지는 두 요건으로 평가될 수 있다: 첫째, 필요조건으로 좋은 성능의 업스트림 언어모델에 의존해야 한다. 이 논문은 벤치마크 평가 결과를 인용하여 저자가 사용한 KoBigBird가 좋은 성능의 모델임을 보인다. 둘째, 충분조건으로 실제로 문맥적으로 핵심적인 특성들을 중심으로 의미망을 추출할 수 있어야 한다. 이 논문은 BERT- SNA가 공출현 네트워크 분석과 달리 문맥적으로 핵심적인 특성만을 사용 해 연구자의 노력 비용을 줄일 수 있음을 계산적인 실험을 통해 보인다. 또한 이 논문은 방법론과 귀납적 시사점의 균형을 맞추려 시도한다. 예시 적 분석의 결과, BERTopic이 적용된 AV 관련 뉴스 데이터셋은 자율주행 체 책임 문제에 대한 관심이 상대적으로 부족한 것으로 나타났다. 이 문제 에 대해 대중과 정보를 공유할 수 있는 기회가 필요해 보인다. BERT-SNA 가 적용된 설문조사 데이터셋은 공대생들이 자율주행체에 나름의 관점들을 가질 수 있음을 보여주며, 책임 문제에 대한 공적 논의가 발전할 가능성을 시사한다. 이 간략한 사례 연구들을 모든 자율주행체 이해관계자에게 일반 화할 수는 없지만, 전 세계 연구자들이 향후 연구에서 BERTopic과 BERT-SNA로 그들의 다양한 그룹과 맥락을 탐색하는 데 동기를 부여하기 에 충분하다. 이 논문은 이론의 귀납에 있어서 BERT-SNA가 근거이론의 경제적인 대안이 될 수 있음을 보임으로써 이를 부가적으로 뒷받침한다. This thesis utilizes a useful text mining approach to explore the acceptance of the issue of autonomous vehicle (AV) liability. Despite the growing number of peer-reviewed articles on the liability issue, different nations haven't made much progress in enacting liability rules. Text mining can help explore stakeholder acceptance and provide insight into the issue. However, previous studies have tended to pay little attention to the importance of preserving contextual information and the need to apply different methods depending on different sizes of datasets. Therefore, this thesis utilizes an approach based on contextual embedding of a pre- trained Language Model (LM). In this approach, the latest topic modeling framework, BERTopic, is applied to larger datasets, while BERT-SNA, as the downstream task of a pre-trained BERT variant, is applied to smaller datasets. The superiority of BERTopic over LDA, the popular topic modeling algorithm, has already been demonstrated in the Natural Language Processing (NLP) domain. Meanwhile, the excellence of BERT-SNA in reflecting contextual information of data can be evaluated by two conditions: First, as a necessary condition, it should rely on a good-performing upstream LM. This thesis cites a benchmark evaluation result to demonstrate that KoBigBird, used by the author, is a good-performing LM. Second, as a sufficient condition, it should be able to extract a semantic network focusing on contextually core features. By computational experiments, this thesis shows that BERT-SNA can reduce researchers' effort costs using only contextually core features, as opposed to co- occurrence network analysis. In addition, this thesis attempts to balance methodology with inductive implications. As a result of the illustrative analysis, the AV-related news datasets with BERTopic show a relative lack of attention to the AV liability issue. Thus, there seems to be a need for opportunities to share information with the public on the issue. Meanwhile, the survey datasets with BERT-SNA show that engineering students can have their perspectives on AVs, suggesting the potential for public discussions on the issue to develop. These brief case studies CANNOT be generalized to all AV stakeholders, but it's enough to motivate researchers worldwide to explore their diverse stakeholder groups and contexts using BERTopic and BERT-SNA in future work. This thesis additionally supports this by demonstrating that, in the induction of theory, BERT-SNA can be an economical alternative to Grounded Theory.

      • 소셜 미디어 데이터의 감정 분석 : 사전 학습된 BERT를 이용한 이중 미세 조정 접근

        장민지 숙명여자대학교 대학원 2024 국내석사

        RANK : 247807

        With the advent of the 21st century, advancements in the IT industry, alongside the proliferation of smartphones and the internet, have brought significant changes to people's daily lives and consumption of culture. Particularly, platforms like YouTube have disrupted the traditional paradigm of broadcast content production, opening new realms for individual creators and small-scale content production. These shifts have led to a wide consumption of diverse contents alongside the innovation of streaming services and the emergence of OTT (Over-The-Top) platforms, enabling both corporations and individual creators to engage in active marketing and content creation. However, this modern social trend has not only benefitted OTT platforms. Notably, terms like 'poverty in abundance' and 'Netflix Syndrome' have emerged around Netflix, highlighting a phenomenon where the expansion of choices in movies and dramas induces users' decision-making time and mental stress. Additionally, the surge in small-scale content production on social network services like YouTube has increased the tendency of users to refer to relatively shorter review videos than the somewhat lengthy movies or dramas offered on OTT platforms. The popularity of small-scale content production and short review videos reflects users' emotions and preferences. Through emotion analysis, it's possible to understand these trends and establish more effective content production and marketing strategies. This study utilizes the BERT – BASE version of the BERT – Multilingual model to transcribe voices from videos containing YouTube creators' poetic interpretations into subtitles and experiments with emotion analysis through dual fine-tuning without pre-training, using comments from viewers. The emotion analysis execution mechanism is divided into two experiments: the first using comments and the second using subtitles, involving data exploration, preprocessing, model training, and performance evaluation based on accuracy. The study examines the correlation of labels using binary methods based on the emotion analysis of sampled subtitles and comments. For instance, subtitles of a 'cohabitation drama review' video predominantly showed 'jealousy' (Emotion Label, 31), while the comments reflected 'satisfaction' (Emotion Label, 54) and 'excitement' (Emotion Label, 55). This difference is attributed to factors like content and user response disparity, the diversity and subjectivity of emotions, and the dramatization and direction style. This natural variance between the emotions in drama subtitles and viewer comments illustrates how each individual's unique experiences, interpretations, and responses generate diverse emotional reactions. Particularly, performance evaluation results can be qualitatively compared with related studies. Despite the same learning environment, an increase in accuracy by 0.43% was proven, and BERT demonstrated somewhat higher performance through dual fine-tuning without special pre-training. 21세기 들어 IT 산업의 발전과 함께, 스마트폰과 인터넷 보급은 사람들의 일상과 문화 소비 방식에 커다란 변화를 가져왔다. 특히 유튜브와 같은 플랫폼의 등장은 전통적인 방송 콘텐츠 제작 패러다임을 깨고, 개인 크리에이터와 소규모 콘텐츠 제작에 참여할 수 있는 새로운 영역을 열었다. 이러한 변화는 폭넓은 스트리밍 서비스의 혁신과 OTT(Over – The –Top, 이하 생략) 플랫폼의 등장과 함께 다양한 콘텐츠가 소비 됐으며, 이 콘텐츠를 바탕으로 기업과 개인 크리에이터들은 활발한 마케팅 및 창작물을 제공했다. 그러나 이러한 현대의 사회적 흐름은 OTT 플랫폼들에게 이점만 남기진 않았다. 특히, 넷플릭스를 중심으로 ‘풍요 속의 빈곤’과 ‘넷플릭스 증후군’이라는 용어들이 등장함을 통해 영화나 드라마의 선택의 폭을 넓힘으로써 사용자의 선택 시간과 정신적인 스트레스를 유발하는 현상이 나타났다. 더불어, 유튜브와 같은 소셜 네트워크 서비스를 대상으로 소규모 콘텐츠 제작의 열풍을 일으키며, 다소 긴 영화나 드라마를 제공하는 OTT 플랫폼의 영화나 드라마들보다 비교적 짧은 리뷰 영상을 참고하는 사용자의 경향이 높아지고 있다. 이러한 소규모 콘텐츠 제작의 열풍과 짧은 리뷰 영상의 인기는 사용자의 감정과 선호도를 반영하는데, 감정 분석을 통해 이러한 경향을 파악하고 콘텐츠 제작 및 마케팅 전략을 보다 효과적으로 수립할 수 있다. 본 연구에서는 BERT – BASE 버전의 BERT – Multilingual 모델을 활용하여, 유튜브 크리에이터들의 서정적인 해석이 내포된 영상의 음성을 자막으로 텍스트화시키고, 해당 영상을 시청한 사용자들의 감정을 댓글을 활용하여 사전 학습 없이 이중 미세 조정을 통한 감정 분석을 실험한다. 감정 분석 실행 메커니즘은 댓글을 활용한 1차 실험과 자막을 활용한 2차 실험으로 나뉘어, 데이터 탐색, 전처리, 모델 학습, 정확도를 활용한 성능 평가로 이루어진다. 연구 결과는 표본으로 추출한 자막의 감정 분석과 댓글의 감정 분석 결과를 토대로 이진법을 활용해 라벨의 연관성을 살펴보았으며, 대표적인 예로 간 떨어지는 동거 리뷰 영상의 자막은 주로 질투하는(감정라벨, 31번)이 나왔으며, 댓글 감정 분석 결과는 만족하는(감정라벨, 54번)과 흥분한(감정라벨, 55번)이 주로 나타났다. 이는 자막과 같은 감정이 나타나지 않았는데, 주요 큰 요인으로썬 콘텐츠와 사용자 반응의 차이, 감정의 다양성과 주관성, 드라마 표현 방식과 연출 때문이다. 이러한 요인들을 종합해 볼 때, 드라마의 자막 데이터와 시청자 댓글 사이의 감정의 차이가 나타나는 것은 매우 자연스러운 현상이다. 이는 각 개인의 독특한 경험, 해석 및 반응이 어떻게 다양한 감정적 반응을 생성하는지 보여준다. 특히, 성능 평가 결과는 본연구와 관련 연구의 비교를 통해 정성적 성능 평가 결과를 살펴볼 수 있다. 이는 같은 학습 환경임에도 불구하고, 정확도는 0.43% 높음을 입증할 수 있었고, 특별한 사전 학습 없이도, BERT는 이중 미세 조정을 통해 다소 높은 성능을 보여줄 수 있음을 확인한다.

      • BERT를 이용한 한국어 기계독해와 질문생성모델

        이동헌 강원대학교 대학원 2021 국내석사

        RANK : 247807

        Machine Reading Comprehension(MRC) is to analyzing and inferring a paragraph received as input by a machine. Ushing machine reading comphrehension to understand given questions and paragraphs and outputting appropriate answers is question and answer using machine reading comprehension. Building machine reading learning data is difficult task, and you have to manually create the correct answers and questions that can derive the correct answers that appear in the document. In order to solve this problem research on automatic question generation has been actively studied. As opposed to machine reading comprehension, question generation is a task of generating question that can derive correct answers by looking at documents and correct answers. BERT is a language model showing excellent performance in various natural language processing tasks in recent years, and it learns a language model with a transformer with bedirectionality for a large-scale corpus. The pre-trained BERT can be applied to natural language processing tasks by adding an output layer. In this paper, we use KorQuAD 1.0 and KorQuAD 2.0 which are Korean question and answer datasets for machine reading comprehension learning. We propose machine reading comprehension model that adds a SRU(Simaple Recurrent Unit) on pre-trained BERT model and features suitable each dataset and BERT-based Sequence-to-sequence model that adds copying mechanism to then model that automatically generates a question from the document to which the correct answer belongs. As a result of the experiment, when the proposed in this paper was applied to KorQuAD 1.0 data, EM 85.35%, F1 93.24% were shown in the development set, and when was applied to KorQuAD 2.0 data, EM 49.2%, F1 71.21% were shown. In addition, the performance of the BERT-based Transformer decoder model was better than that of the exising model and the BERT + GRU decoder model. 기계 독해는 기계가 입력으로 받은 문단을 분석하고 추론하는 것을 말한다. 기계 독해를 이용하여 주어진 질문과 문단을 이해하고 이에 알맞은 답을 출력하는 것을 기계 독해를 이용한 질의 응답이라 한다. 기계 독해 학습 데이터 구축은 어려운 작업으로, 문서에서 등장하는 정답과 정답을 도출할 수 있는 질문을 수작업으로 만들어야 한다. 이를 해결하기 위하여 최근 질문 자동 생성 연구가 활발히 연구되고 있다. 질문 생성은 기계 독해와 반대로, 문서와 정답을 보고 정답을 도출할 수 있는 질문을 생성하는 태스크이다. BERT는 최근 다양한 자연어 처리 태스크에서 뛰어난 성능을 보이고 있는 언어 모델로 대용량 코퍼스에 대하여 양방향성을 가진 트랜스포머(transformer)로 언어 모델을 학습한다. 사전 학습 된 BERT는 출력 층(layer)을 추가하여 자연어 처리 태스크에 적용할 수 있다. 본 논문에서는 기계 독해 학습을 위해 한국어 질의 응답 데이터 셋인 KorQuAD 1.0과 KorQuAD 2.0을 이용하며, 사전 학습 된 BERT 모델 위에 SRU(Simple Recurrent Unit)와 각 데이터에 적합한 자질을 추가한 모델과 정답이 속한 문서로부터 질문을 자동으로 생성해주는 모델에 복사 메커니즘을 추가한 BERT 기반의 Sequence-to-sequence 모델을 제안한다. 실험 결과, 본 논문에서 제안한 방법을 KorQuAD 1.0 데이터에 적용한 경우, 개발 셋에서 EM 85.35%, F1 93.24%의 성능을 보였으며, KorQuAD 2.0 데이터에 적용하였을 때는 EM 49.2%, F1 71.21%의 성능을 보였다. 또한, BERT 기반의 Transformer 디코더 모델의 성능이 기존 모델과 BERT + GRU 디코더 모델보다 좋았다.

      • BERT를 활용한 진로상담 텍스트데이터 분석

        권순보 한국교원대학교 대학원 2022 국내박사

        RANK : 247807

        빅데이터 분석 기법 중 자연어 처리 기법은 다양한 분야에서 활용되고 있으며, 지속적으로 발전을 하고 있다. 특히, 교육 분야를 보면 학교 현장에서의 교육이 언어를 매개로 진행되기 때문에 자연어 처리 기법 중 최근 등장한 딥러닝 기반의 기법을 활용한 분석은 기존의 연구 방법들이 갖는 한계를 극복할 수 있는 방안을 제공할 수 있다. 온라인 진로상담은 텍스트를 통해 상담이 진행되며, 기존에 축적된 텍스트 자료를 통해 딥러닝 기반의 자연어 처리 기법을 접목할 수 있다. 온라인 진로상담을 진행하는데 있어 내담자가 가진 상담 유형에 대해 적절하게 파악하고 진단하는 것은 각 유형별로 내담자가 가진 고민을 정리하고, 새로운 상담 자료를 분류하는데 도움이 된다. 본 연구의 목적은 자연어 처리 기법을 활용해 진로상담 텍스트 데이터를 분류하고 각 모델의 성능 및 특징을 비교하는 것이다. 이를 위하여 설정한 연구 문제는 다음과 같다. 내담자의 문서를 분류함에 있어 추론 기반 언어 모델인 BERT(Bidirectional Encoder Representations from Transformer)와 FastText는 예측 성능면에서 어떠한 차이가 있는가? 진로상담 시 내담자와 상담자의 문서에서 나타나는 키워드와 토픽은 무엇인가? 이상의 연구 문제를 해결하기 위해 우선, 커리어넷의 진로상담 게시판에 공개되어 있는 내담자의 상담 문서와 상담자의 답변 문서를 파이썬 기반의 웹 스크래이핑 기법을 이용하여 수집하였다. 자료를 수집한 결과 총, 6,229건의 상담 자료가 수집되었다. 이 중 분석 목적에 부합하지 않은 자료를 제외한 4,412건의 자료에 대해 전처리를 실시하였다. 내담자의 상담 문서는 추론 기반 언어 모델인 BERT와 FastText를 통해 상담 유형을 분류하여 두 언어 모델의 성능을 비교하였다. 그리고 내담자의 상담 문서와 상담자의 답변 문서를 대상으로 키워드 분석을 수행하여 자주 등장하는 단어를 파악하고, LDA(Latent Dirichlet Allocation) 분석을 통해 토픽을 추출하여 상담 문제 유형이 분류되는 모습을 파악하였다. 본 연구의 연구 결과에 근거한 결론은 다음과 같다. 첫째, 내담자의 문서를 추론 기반의 지도학습 언어 모델인 BERT와 FastText로 분류한 결과 BERT는 전체 데이터 기준으로 시험 데이터의 정확도가 FastText에 비해 높은 수준이었다. 각 범주별로 산출한 정밀도, 재현율, F1-score에서도 BERT는 FastText에 비해 더 높은 성능을 보여주였다. 둘째, TF(Term Frequency)와 TF-IDF(Term Frequency-Inverse Document Frequency)를 활용하여 키워드 분석을 한 결과 각 범주를 설명하기에 적절한 단어들이 등장하였다. 셋째, 토픽 분석 결과 내담자의 문서를 상담 문제 유형의 개수와 같은 4개의 토픽으로 분류시 내담자 상담글이 명확하게 4개로 분류되지 못하고 한 문서 내에서 각각의 토픽이 등장할 확률이 고르게 분포하고 있음을 볼 수 있었다. 반면 상담자의 답변 문서를 4개의 토픽으로 분류 시 내담자의 상담글과는 달리 비교적 명확하게 토픽이 구분되고 있었다. 넷째, 추론 기반의 언어 모델인 BERT와 토픽 모델링 기법의 LDA를 비교한 결과 비지도 학습으로 토픽을 추출하는 LDA는 상담 문서들이 짧은 문장으로 구성되었을 때 명확히 분류를 진행하지 못함을 볼 수 있었다. 이는 추론 기반의 언어 모델인 BERT가 지도학습 방법으로 짧은 상담 문장을 비교적 높은 정확도와 정밀도, 재현율, F1-score 값을 보여주며 분류하는 모습과는 대조적이었다. 특히, 전체 문서에서 3.67%에 불과한 비중을 차지하는 ‘취업 및 직업교육’ 범주에 대해 전체 문서의 비율에서 크게 어긋나지 않은 상태에서 예측을 진행하였다. 전체 문서에서 비중이 적은 범주에 대해 LDA는 이를 파악하는데 어려움이 있고, FastText에서는 학습이 안되는 부분이 있었지만 BERT는 이 부분에 대해 상대적으로 정확한 분류를 진행하였다. 본 연구는 딥러닝 기반의 자연어 처리인 BERT를 교육 분야의 텍스트 데이터 분석에 적용하여 이후 교육 분야에서 딥러닝 기반의 연구를 접목하는데 도움이 되는 자료를 제공하였다. 그리고 진로상담을 진행하는데 있어 학생들이 가진 고민의 유형이 무엇인지 파악하는데 도움을 주는 모델을 설계하고 분류 과정을 분석하여 진로상담을 진행하는 상담 자와 내담자에게 도움이 되고자 하였다. 또한, 같은 텍스트 데이터를 대상으로 문장 기반의 언어 모델과 단어 기반의 언어 모델, 토픽 모델링을 적용하여 각 기법 간의 특성을 탐색하였다는 데 의의가 있다.

      • 질의 문장 분류를 위한 문장 구조 특성 기반 GAN-BERT 모델

        이다영 동국대학교 일반대학원 2022 국내석사

        RANK : 247806

        질의문장 분류의 목적은 자연어 처리 과제인 QA에서 원하는 답을 빠르게 찾고 대답하는 것이다. 질문이 어느 범주에 있는지 미리 알고 있으면 더 잘 대답할 수 있다. 트랜스포머 기반 BERT가 등장하면서 텍스트 문맥적 의미를 파악하는 자연어 모델이 나왔다. 이러한 자연어 모델에서는 단어 간의 상황적 의미는 충분히 파악될 수 있다. 이에 BERT를 이용하여 질의 문장 분류를 수행해 왔다. 하지만 BERT는 지도 학습 모델로서, 정답과 같은 라벨이 붙은 데이터를 사용하여 학습을 진행하기 때문에 학습에 활용할 수 있는 데이터에 한계가 있다는 문제가 있다. 따라서 적은 양의 라벨이 붙은 데이터로도 학습을 진행하여 BERT보다 성능을 향상 시킨 GAN-BERT를 통한 질의문장 분류 모델이 등장하였다. 그러나 BERT 같은 언어 모델 단독으로는 문장의 구조적 정보를 파악하기가 쉽지 않다. 이에, 본 연구에서는 의존성 파싱을 사용하여 문장의 문법 구조를 파악한 정보를 추가하여 GAN-BERT의 성능을 높이고자 한다. BERT에서 누락된 문장의 구조적 정보를 그래프로 표현하여 GAN-BERT 입력으로 제공함으로써 GAN-BERT 모델의 한계를 보완해줄 수 있는 문장 구조 특성 기반 질의 문장 분류 모델을 제안한다. The purpose of question and sentence classification is to quickly find and answer the desired answer to the question in QA, a natural language processing task. Knowing that questions are in which category in advance can answer them faster. With the appearance of Transformer-based BERT, a natural language model that understands the context in which text and text literally means came out. Grammar and semantic relationships can be sufficiently known in these natural language models. However, the information of the language model BERT alone lacks information on the structure of the sentence. Dependency Parsing is a method that includes the grammar structure of a sentence. Dependency Parsing is a method of solving the structural ambiguity of a sentence by grasping the grammatical structure of the sentence and finding the relationship between each word. This study proposes a GAN-BERT model based on sentence structure characteristics for query sentence classification that improved the performance of question classification by giving the expression of the structural information of the sentence missing in BERT as a graph expression by GAN-BERT input.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼