RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      훈련 데이터의 오염이 딥러닝 기반 언어모델의 미세조정에 미치는 영향 분석 : 관광분야 텍스트 생성 태스크를 중심으로

      한글로보기

      https://www.riss.kr/link?id=T16818724

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Deep learning have recently begun to be applied to natural language processing and generation. As a result, artificial intelligence's natural language generation has advanced significantly. In addition, natural language generation is receiving great attention due to the surprising natural language processing ability of GPT based ChatGPT released by OpenAI. However, Because of hallucinations of natural language generation, users are confused. In the case of GPT's natural language generation task, side effects such as hallucinations occur because it does not perform an information-oriented task. Therefore, it is becoming more important for users not to unconditionally trust text data created through natural language generation, but to distinguish it from facts. In addition, in the case of pre-trained models, there is a possibility of learning with intentionally manipulated data during transfer learning such as fine-tuning. So a method to detect this must be prepared. The purpose of this paper is to find out how contamination of the training data used in the fine-tuning of GPT, a deep learning-based language model for natural language generation(NLG), affects the output. In this experiment, fine-tuning was carried out using contaminated data created by intentionally contaminating data. Using the language model created through fine-tuning, the result was output as a task for generating domain text. In addition, the probability distribution of domain words was analyzed with KL-divergence. As a result, it was confirmed that there was little difference in the word appearance probability distribution in the case of contamination below a certain level, but there was a large difference in the probability distribution in the case of high level contamination.
      번역하기

      Deep learning have recently begun to be applied to natural language processing and generation. As a result, artificial intelligence's natural language generation has advanced significantly. In addition, natural language generation is receiving great a...

      Deep learning have recently begun to be applied to natural language processing and generation. As a result, artificial intelligence's natural language generation has advanced significantly. In addition, natural language generation is receiving great attention due to the surprising natural language processing ability of GPT based ChatGPT released by OpenAI. However, Because of hallucinations of natural language generation, users are confused. In the case of GPT's natural language generation task, side effects such as hallucinations occur because it does not perform an information-oriented task. Therefore, it is becoming more important for users not to unconditionally trust text data created through natural language generation, but to distinguish it from facts. In addition, in the case of pre-trained models, there is a possibility of learning with intentionally manipulated data during transfer learning such as fine-tuning. So a method to detect this must be prepared. The purpose of this paper is to find out how contamination of the training data used in the fine-tuning of GPT, a deep learning-based language model for natural language generation(NLG), affects the output. In this experiment, fine-tuning was carried out using contaminated data created by intentionally contaminating data. Using the language model created through fine-tuning, the result was output as a task for generating domain text. In addition, the probability distribution of domain words was analyzed with KL-divergence. As a result, it was confirmed that there was little difference in the word appearance probability distribution in the case of contamination below a certain level, but there was a large difference in the probability distribution in the case of high level contamination.

      더보기

      국문 초록 (Abstract)

      최근 인공지능의 딥러닝 기술이 자연어처리 및 생성 분야에 적용되기 시작하면서 인공지능의 자연어생성 분야가 크게 발전했다. 더불어 OpenAI에서 공개한 GPT기반의 ChatGPT의 놀라운 자연어 처리 능력으로 자연어생성 분야가 큰 관심을 받고 있다. 하지만 자연어생성 분야에서 나타나는 환각(hallucination)으로 인해 사용자에게 혼란을 주고 있다. GPT의 자연어 생성의 경우 정보 중심 태스크를 수행하는 것이 아닌 사람이 작성한 글과 구별하기 힘든 글을 생성하는 태스크를 수행하는 것이기 때문에 환각과 같은 부작용이 발생하게 되는 것이다. 따라서 사용자는 자연어생성을 통해 만들어진 텍스트 데이터를 무조건적으로 신뢰하는 것이 아니라 사실과 구분해내는 능력의 중요성이 중요해지고 있다. 또한 사전학습 모델의 경우 미세조정 등의 전이학습 시 의도적으로 조작된 데이터로 학습을 진행할 가능성이 있어 이를 탐지할 수 있는 방안이 마련되어야 한다. 본 논문은 자연어 생성(NLG)을 위한 딥러닝 기반 언어 모델인 GPT(Generative Pre-trained Transformer)의 미세조정 시 사용되는 훈련 데이터의 오염에 따라 출력에 어떤 영향을 주는지 알아내는 것을 목적으로 한다. 이에 실험에는 웹상에서 수집한 데이터를 의도적으로 오염시켜 생성한 오염된 데이터를 이용해 미세조정을 진행했다. 미세조정을 통해 생성된 언어 모델을 이용해 도메인 텍스트 생성을 태스크로 결과를 출력했다. 그 결과 오염의 정도와 비례하게 출력 결과에 오염 단어가 나타났지만, 출현 빈도는 3위 내를 차지하여 영향이 크다는 것을 확인했다. 또한 도메인 단어의 출현 확률 분포를 KL-divergence를 통해 그 차이를 분석했다. 그 결과 어느 수준 이하의 오염의 경우에는 단어 출현 확률 분포에 차이가 거의 없었지만 고수준 오염의 경우에는 확률 분포가 큰 차이가 있는 것을 확인할 수 있었다.
      번역하기

      최근 인공지능의 딥러닝 기술이 자연어처리 및 생성 분야에 적용되기 시작하면서 인공지능의 자연어생성 분야가 크게 발전했다. 더불어 OpenAI에서 공개한 GPT기반의 ChatGPT의 놀라운 자연어 ...

      최근 인공지능의 딥러닝 기술이 자연어처리 및 생성 분야에 적용되기 시작하면서 인공지능의 자연어생성 분야가 크게 발전했다. 더불어 OpenAI에서 공개한 GPT기반의 ChatGPT의 놀라운 자연어 처리 능력으로 자연어생성 분야가 큰 관심을 받고 있다. 하지만 자연어생성 분야에서 나타나는 환각(hallucination)으로 인해 사용자에게 혼란을 주고 있다. GPT의 자연어 생성의 경우 정보 중심 태스크를 수행하는 것이 아닌 사람이 작성한 글과 구별하기 힘든 글을 생성하는 태스크를 수행하는 것이기 때문에 환각과 같은 부작용이 발생하게 되는 것이다. 따라서 사용자는 자연어생성을 통해 만들어진 텍스트 데이터를 무조건적으로 신뢰하는 것이 아니라 사실과 구분해내는 능력의 중요성이 중요해지고 있다. 또한 사전학습 모델의 경우 미세조정 등의 전이학습 시 의도적으로 조작된 데이터로 학습을 진행할 가능성이 있어 이를 탐지할 수 있는 방안이 마련되어야 한다. 본 논문은 자연어 생성(NLG)을 위한 딥러닝 기반 언어 모델인 GPT(Generative Pre-trained Transformer)의 미세조정 시 사용되는 훈련 데이터의 오염에 따라 출력에 어떤 영향을 주는지 알아내는 것을 목적으로 한다. 이에 실험에는 웹상에서 수집한 데이터를 의도적으로 오염시켜 생성한 오염된 데이터를 이용해 미세조정을 진행했다. 미세조정을 통해 생성된 언어 모델을 이용해 도메인 텍스트 생성을 태스크로 결과를 출력했다. 그 결과 오염의 정도와 비례하게 출력 결과에 오염 단어가 나타났지만, 출현 빈도는 3위 내를 차지하여 영향이 크다는 것을 확인했다. 또한 도메인 단어의 출현 확률 분포를 KL-divergence를 통해 그 차이를 분석했다. 그 결과 어느 수준 이하의 오염의 경우에는 단어 출현 확률 분포에 차이가 거의 없었지만 고수준 오염의 경우에는 확률 분포가 큰 차이가 있는 것을 확인할 수 있었다.

      더보기

      목차 (Table of Contents)

      • I. 서론 1
      • 1. 연구 배경 1
      • 2. 연구목적 및 방법 3
      • 3. 논문의 구성 3
      • II. 관련 연구 4
      • I. 서론 1
      • 1. 연구 배경 1
      • 2. 연구목적 및 방법 3
      • 3. 논문의 구성 3
      • II. 관련 연구 4
      • 1. 자연어생성(Natural Language Generatin, NLG) 4
      • 2. GPT(Generative Pre-trained Transformer) 5
      • 3. 전이학습(Transfer Learning) 7
      • III. 실험내용 8
      • 1. 실험환경 10
      • 2. 실험데이터 10
      • 1) 도메인 텍스트 데이터 수집 10
      • 2) 도메인 단어 목록 13
      • 3. 오염 데이터 생성 16
      • 1) 도메인 단어 분석 16
      • 2) 오염 단어 치환 19
      • 4. 프리트레인된 언어모델 미세조정 20
      • 5. 텍스트 생성 22
      • 1) 디코딩 설정 22
      • 2) 언어모델별 텍스트 생성 24
      • IV. 실험결과 25
      • 1. 오염 영향 분석 25
      • 1) 도메인 단어 빈도 분석 25
      • 2) 오염 단어 비중 분석 26
      • 2. 도메인 단어 비율 분포 분석 28
      • 1) 도메인 단어 비율 분포 시각화 28
      • 2) Kullback-Leibler divergence 계산 30
      • V. 결론 31
      • VI. 참고문헌 32
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼