RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      확장된 의미역 결정을 이용한 문서 유사성 판단 = Determination of Document Similarity Using Extended Semantic Role Labeling

      한글로보기

      https://www.riss.kr/link?id=T14912941

      • 저자
      • 발행사항

        광주 : 조선대학교 일반대학원, 2018

      • 학위논문사항

        학위논문(박사) -- 조선대학교 일반대학원 , 컴퓨터공학과 , 2018. 8

      • 발행연도

        2018

      • 작성언어

        한국어

      • 주제어
      • DDC

        621.39 판사항(21)

      • 발행국(도시)

        광주

      • 형태사항

        vi, 69p. : 26cm

      • 일반주기명

        조선대학교 논문은 저작권에 의해 보호받습니다.
        Determination of Document Similarity Using Extended Semantic Role Labeling
        지도교수:김판구
        참고문헌 : p.64-69

      • UCI식별코드

        I804:24011-000000037317

      • 소장기관
        • 국립중앙도서관 국립중앙도서관 우편복사 서비스
        • 조선대학교 도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      문서의 재사용은 인터넷과 스마트폰의 보급으로 인하여 정보 콘텐츠의 디지털화 과정에서 두드러지게 나타나고 있으며, 단어의 삽입, 삭제 교체, 어순의 변경 등 복잡한 형태로 이뤄지고 있...

      문서의 재사용은 인터넷과 스마트폰의 보급으로 인하여 정보 콘텐츠의 디지털화 과정에서 두드러지게 나타나고 있으며, 단어의 삽입, 삭제 교체, 어순의 변경 등 복잡한 형태로 이뤄지고 있다. 특히, 문서 내의 단어가 같은 의미의 유사 단어로 교체되었을 때, 기존의 형태적 유사성 측정방법의 경우 유사성 측정의 대상으로 고려되지 않는다는 문제점이 있다. 이러한 문제를 해소하기 위해 유사도 측정에 대한 다양한 연구가 수행되어 왔다.

      본 연구는 의미역 결정(semantic role labeling)을 이용하여 문장의 구조 분석을 기반으로한 의미적 유사성 측정방법을 제안한다. 의미역 결정은 구문 분석을 기반으로 문장 성분을 술어-논항(Predicate-Argument)구조로 분석하여, 각 문장 성분이 문장 내에서 맡고있는 의미 역할을 결정 및 태깅하는 작업을 말하며, 문서의 의미적 이해를 위해 기계 번역이나 질의응답시스템 등 다양한 분야에서 활용되고 있다. 문장의 술어-논항구조는 문장의 의미를 나타내는 중요한 성분으로 특정의미의 술어에는 필수적인 논항정보가 필요하게 되어, 유사한 의미의 문장 간에는 공통된 술어-논항정보가 사용되게 된다.

      본 논문에서는 기존의 유사성 측정방법으로 검출하기 어려운 다시쓰기(paraphrasing)문장 등 변형이 많이 이루어진 유사 문장에 대한 검출 성능을 향상시키기 위해 의미역 결정을 이용하였다. 기존 의미역 결정 도구들은 기 구축된 언어자원에 기반하여 문서 분석을 수행하고 있으며, 언어자원의 범주에 따라서 문서 분석의 성능이 좌우된다.

      본 논문에서는 기존 의미역 결정을 위한 언어자원 중 수작업으로 구축되어 높은 정확성을 갖으며, ‘술어’와 ‘논항’에 대한 의미 정보를 추가한 FrameNet을 활용하였으며, FrameNet의 자원 부족의 문제를 해소하기 위하여 FrameNet을 확장하는 과정을 수행하였다. 그 후, 확장된 FrameNet을 이용하여 두 문서에 의미역 결정을 수행을 통해 얻게 된 술어-논항정보를 문서의 유사성을 측정하기 위한 특징 정보로 선정하여, 두 문서 간의 유사성을 측정하는 과정을 수행하였다.

      본 논문에서는 두 문서간 유사성을 측정하기 위해 확장된 FrameNet을 통해 얻게된 의미역 결정 정보를 이용하였으며, 제안된 방법의 성능평가를 위해 기존에 문서간 유사성 측정에 활용되고 있는 코사인 유사도, 부분 문자열 유사도와 비교를 통한 문서의 유사성 측정 방법과 비교하였다. 동일한 실험데이터에 제안된 유사성 측정 방식을 적용해 본 결과 본 논문에서 제안한 방법은 문서의 수정을 많이 가하지 않는 표절 문서에 대해서는 기존의 방법과 큰 성능의 차이는 없었지만, 단어의 변형, 문장 구조의 변형이 이루어진 다시쓰기 문장의 경우에는 기존의 방법들에 비해 개선된 결과를 확인 할 수 있었다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Reusing documents is very common in the process of digitalizing information contents thanks to the Internet and the popularity of smartphone, and is in the complicated form of word insertion, deletion and replacement, and word order change. In particu...

      Reusing documents is very common in the process of digitalizing information contents thanks to the Internet and the popularity of smartphone, and is in the complicated form of word insertion, deletion and replacement, and word order change. In particular, where a word in a document is replaced by a similar word semantically the same, it is not considered as an object of measuring similarity in the conventional method for measuring morphological similarity. Therefore, it has been studied to measure similarity to solve the aforementioned problem.

      This study suggests a method for measuring semantic similarity, based on sentence structure analysis using semantic role labeling. Semantic role labeling is based on syntax analysis to analyze sentence elements in the Predicate-Argument structure, then determine and tag semantic roles of each sentence element in a sentence. It is used in various fields including machine translation or question-answering systems for semantic understanding of a document. Because the Predicate-Argument structure of a sentence is an important element showing the meaning thereof, and a predicate with a specific meaning requires essential argument information, common Predicate-Argument information is used for sentences with similar meaning.

      In this study, semantic role labeling is used to improve detection performance for similar sentences having many transformations, for example, paraphrasing not detected easily in the conventional similarity measurement methods. Conventional semantic role labeling tools conduct document analysis based on language resources already constructed, and document analysis performance depends on the category of language resources.

      In this study, FrameNet, one of conventional language resources for semantic role labeling, is used, which is manually constructed and very accurate, and to which the semantic information of ‘predicative’ and ‘argument’ is added. The process of extending FrameNet was conducted to address the issue of insufficient resources of FrameNet. The extended FrameNet is then used to select the predicative-argument information obtained through semantic role labeling for two documents as feature information for measuring document similarity and then measure similarity between two documents.

      In this study, semantic role labeling information is used, which is obtained through the extended FrameNet for measuring similarity between two documents. The result is then compared with the conventional methods for measuring similarity between documents by comparing it with cosine similarity and partial string similarity used for measuring similarity between documents. Application of the suggested method for measuring similarity to the same experiment data reveals that the method suggested in this study does not show much difference from the conventional methods for plagiarized documents in which the documents are not modified much, but implements better results than the conventional methods for paraphrased documents with modified words and sentence structure.

      더보기

      목차 (Table of Contents)

      • ABSTRACT
      • Ⅰ. 서 론 1
      • 1. 연구 배경 1
      • 2. 연구 내용 및 범위 4
      • ABSTRACT
      • Ⅰ. 서 론 1
      • 1. 연구 배경 1
      • 2. 연구 내용 및 범위 4
      • Ⅱ. 관련 연구 7
      • 1. 문서 표절 유형 7
      • 2. 문서 유사성 측정 9
      • 1) 문자 기반 유사성 측정 11
      • 2) 벡터 공간 모델 기반 유사성 측정 13
      • 3) 의미 기반 유사성 측정 14
      • 4) 구문 정보 기반 유사성 측정 17
      • 3. 의미역 결정 18
      • Ⅲ. 언어자원을 이용한 의미역 결정 확장 22
      • 1. FrameNet 확장 방법 22
      • 1) FrameNet 구조 22
      • 2) Paraphrase Database 구조 24
      • 3) Paraphrase Database를 이용한 FrameNet 확장 26
      • 2. 확장된 FrameNet 학습 및 성능평가 29
      • Ⅳ. 확장된 의미역 결정을 이용한 문서 유사성 측정 34
      • 1. 전처리 과정 35
      • 2. 확장된 FrameNet을 이용한 의미역 결정 37
      • 1) 서술어 인식 37
      • 2) 서술어 분류 39
      • 3) 논항 인식 및 분류 41
      • 3. 문서 유사성 측정 44
      • Ⅴ. 실험 및 성능평가 46
      • 1. 실험 데이터 46
      • 2. 문서 유사성 측정 48
      • 1) 부분 문자열 기반 유사성 측정 48
      • 2) 확장된 FrameNet 이용한 유사성 측정 50
      • 3. 실험 결과 및 성능 평가 56
      • 1) 문서 유사성 측정 결과 56
      • 2) 성능 평가 60
      • Ⅵ. 결론 및 향후 연구 62
      • 참 고 문 헌 64
      더보기

      참고문헌 (Reference) 논문관계도

      1 이준웅, "“표절의 이해”", 2015

      2 최동진, "“지능적 문서 분석을 위한 개선된 WSD 방법 연구”", 조선대학교 대학원 박사학위 논문, 2015

      3 조준희, "“한국어 문서 표절 검사를 위한 LSA와 N-gram 기반의 유사 문장 판별”", 고려대 학교 대학원 석사학위 논문, 2009

      4 황인수, "“연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구,”", 한국정보시스템학회, 정보시스템연 구, 제23권, 제3호, pp. 127-142, 2014

      5 김종익, 임마누, "“유사도 검색을 위한 데이터 재배열을 이용한 공간 효율적인 역 색인 기 법”", 한국정보과학회, 정보과학회논문지, 제42권, 제 10호, pp.1247-1253, 2015

      1 이준웅, "“표절의 이해”", 2015

      2 최동진, "“지능적 문서 분석을 위한 개선된 WSD 방법 연구”", 조선대학교 대학원 박사학위 논문, 2015

      3 조준희, "“한국어 문서 표절 검사를 위한 LSA와 N-gram 기반의 유사 문장 판별”", 고려대 학교 대학원 석사학위 논문, 2009

      4 황인수, "“연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구,”", 한국정보시스템학회, 정보시스템연 구, 제23권, 제3호, pp. 127-142, 2014

      5 김종익, 임마누, "“유사도 검색을 위한 데이터 재배열을 이용한 공간 효율적인 역 색인 기 법”", 한국정보과학회, 정보과학회논문지, 제42권, 제 10호, pp.1247-1253, 2015

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼