RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      Topic Signature와 동시 출현 단어 쌍을 이용한 문서 범주화

      한글로보기

      https://www.riss.kr/link?id=T11589656

      • 저자
      • 발행사항

        창원 : 창원대학교, 2009

      • 학위논문사항

        학위논문(석사) -- 창원대학교 대학원 , 컴퓨터공학과 , 2009. 2

      • 발행연도

        2009

      • 작성언어

        한국어

      • 주제어
      • KDC

        005.12 판사항(4)

      • 발행국(도시)

        경상남도

      • 기타서명

        Text Categroziation using Topic Signature and Co-occrrence Words

      • 형태사항

        v,46p.(단면) ; 26cm

      • 일반주기명

        창원대학교 논문은 저작권에 의해 보호받습니다.
        지도교수:차정원
        참고문헌 : p.42-44

      • 소장기관
        • 국립창원대학교 도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      We describe a new feature selection method for text categorization system using Topic Signature and co-occurrence words. Co-occurrence word is a pair of words to occur within a window in same documents. We use co-occurred words to classify documents instead of a single word, because we hypothesize that co-occurred words have high ability to classify documents for unique meaning. We use Topic Signature as a feature selection method based log-likelihood ratio. Topic Signature was applied for finding topic words in text summarization. In order to archive a high performance, we use TF-Topic Signature and weight of features to occur in within titles. And we use Naive Bayesian classifier for text classification.
      We use Reuters-21578 data collection, a standard data collection for evaluating English text categorization system, for evaluating proposed system. We can compare objectively between the proposed system and the previous systems from the data collection. For the result of experiments, we can see that the proposed system give a good performance, when compare the previous systems.
      The proposed system has some weak point that make many features by using co-occurrence word feature generation. Focus of our future works is to solve the weak points. But we give a good possibility with proposed method, so we expect that our research result is contributed to feature research.
      번역하기

      We describe a new feature selection method for text categorization system using Topic Signature and co-occurrence words. Co-occurrence word is a pair of words to occur within a window in same documents. We use co-occurred words to classify documents i...

      We describe a new feature selection method for text categorization system using Topic Signature and co-occurrence words. Co-occurrence word is a pair of words to occur within a window in same documents. We use co-occurred words to classify documents instead of a single word, because we hypothesize that co-occurred words have high ability to classify documents for unique meaning. We use Topic Signature as a feature selection method based log-likelihood ratio. Topic Signature was applied for finding topic words in text summarization. In order to archive a high performance, we use TF-Topic Signature and weight of features to occur in within titles. And we use Naive Bayesian classifier for text classification.
      We use Reuters-21578 data collection, a standard data collection for evaluating English text categorization system, for evaluating proposed system. We can compare objectively between the proposed system and the previous systems from the data collection. For the result of experiments, we can see that the proposed system give a good performance, when compare the previous systems.
      The proposed system has some weak point that make many features by using co-occurrence word feature generation. Focus of our future works is to solve the weak points. But we give a good possibility with proposed method, so we expect that our research result is contributed to feature research.

      더보기

      국문 초록 (Abstract)

      본 논문에서는 Topic Signature와 동시 출현 단어 쌍 자질을 이용한 새로운 문서 범주화 방법에 대하여 기술한다. 동시 출현 단어 쌍은 한 문서에서 일정한 크기의 윈도우 내에 속하는 단어의 쌍으로 정의된다. 본 논문에서는 단어 하나보다 단어의 쌍이 문서의 범주를 판단하는데 더 좋은 자질로 사용될 수 있을 것이라고 가정하였다. 일반적으로 단어 하나는 여러 의미로 사용될 수 있으므로 여러 범주에서 나타날 가능성이 있다. 그러나 단어 쌍은 특별한 의미로 한정되어 특정한 범주에서만 나타날 가능성이 높아지기 때문이다. 자질 추출 방법으로는 Log-likelihood ratio를 기반으로 하는 Topic Signature를 사용한다. Topic Signature는 문서 요약 분야에서 문서의 핵심 단어를 찾기 위해 사용되었던 방법으로, 문서 범주화에서 사용하는 데는 몇 가지 약점을 가지고 있다. 본 논문에서는 이러한 약점을 보완하기 위하여 TF-Topic Signature와 제목에 나타난 자질에 대한 가중치를 부여하는 방법을 사용한다. 그리고 베이지언 분류기(Naive Bayesian Classifier)를 사용하여 문서를 분류한다.
      본 논문의 성능 평가에는 Reuters-21578 문서 집합을 사용한다. Reuters-21578 문서 집합은 영어 문서 범주화 시스템 성능 평가의 표준 문서 집합으로 많은 기존 연구에 많이 사용되어 왔다. 따라서 제안 시스템과 기존 시스템을 객관적으로 비교할 수 있다. 실험을 통해 살펴본 결과 기존 시스템과 비교했을 때 좋은 성능을 보였다.
      제안 시스템은 동시 출현 단어 쌍 자질을 사용하기 때문에 너무 많은 자질을 생성됨으로 인한 몇 가지 문제점을 안고 있다. 이들 문제점은 향후 연구를 통해 보완해야할 사항이다. 본 논문에서 제안한 방법들은 문서 범주화 시스템에서의 가능성을 충분히 보고 있으므로 앞으로의 연구에도 기여할 수 있을 것이라 기대한다.
      번역하기

      본 논문에서는 Topic Signature와 동시 출현 단어 쌍 자질을 이용한 새로운 문서 범주화 방법에 대하여 기술한다. 동시 출현 단어 쌍은 한 문서에서 일정한 크기의 윈도우 내에 속하는 단어의 쌍...

      본 논문에서는 Topic Signature와 동시 출현 단어 쌍 자질을 이용한 새로운 문서 범주화 방법에 대하여 기술한다. 동시 출현 단어 쌍은 한 문서에서 일정한 크기의 윈도우 내에 속하는 단어의 쌍으로 정의된다. 본 논문에서는 단어 하나보다 단어의 쌍이 문서의 범주를 판단하는데 더 좋은 자질로 사용될 수 있을 것이라고 가정하였다. 일반적으로 단어 하나는 여러 의미로 사용될 수 있으므로 여러 범주에서 나타날 가능성이 있다. 그러나 단어 쌍은 특별한 의미로 한정되어 특정한 범주에서만 나타날 가능성이 높아지기 때문이다. 자질 추출 방법으로는 Log-likelihood ratio를 기반으로 하는 Topic Signature를 사용한다. Topic Signature는 문서 요약 분야에서 문서의 핵심 단어를 찾기 위해 사용되었던 방법으로, 문서 범주화에서 사용하는 데는 몇 가지 약점을 가지고 있다. 본 논문에서는 이러한 약점을 보완하기 위하여 TF-Topic Signature와 제목에 나타난 자질에 대한 가중치를 부여하는 방법을 사용한다. 그리고 베이지언 분류기(Naive Bayesian Classifier)를 사용하여 문서를 분류한다.
      본 논문의 성능 평가에는 Reuters-21578 문서 집합을 사용한다. Reuters-21578 문서 집합은 영어 문서 범주화 시스템 성능 평가의 표준 문서 집합으로 많은 기존 연구에 많이 사용되어 왔다. 따라서 제안 시스템과 기존 시스템을 객관적으로 비교할 수 있다. 실험을 통해 살펴본 결과 기존 시스템과 비교했을 때 좋은 성능을 보였다.
      제안 시스템은 동시 출현 단어 쌍 자질을 사용하기 때문에 너무 많은 자질을 생성됨으로 인한 몇 가지 문제점을 안고 있다. 이들 문제점은 향후 연구를 통해 보완해야할 사항이다. 본 논문에서 제안한 방법들은 문서 범주화 시스템에서의 가능성을 충분히 보고 있으므로 앞으로의 연구에도 기여할 수 있을 것이라 기대한다.

      더보기

      목차 (Table of Contents)

      • 제 Ⅰ 장 서론 = 1
      • 제 Ⅱ 장 관련 연구 = 3
      • 1. 자질 추출(Feature Selection) = 4
      • 2. 문서 범주화 모델(Text Categorization Model) = 8
      • 3. 문서 집합(Text Categorization Test Collection) = 13
      • 제 Ⅰ 장 서론 = 1
      • 제 Ⅱ 장 관련 연구 = 3
      • 1. 자질 추출(Feature Selection) = 4
      • 2. 문서 범주화 모델(Text Categorization Model) = 8
      • 3. 문서 집합(Text Categorization Test Collection) = 13
      • 4. 기존 연구(Previous Research) = 15
      • 제 Ⅲ 장 Topic Signature와 동시 출현 단어 쌍을 이용한 문서 범주화 = 18
      • 1. 전처리(Preprocessing) = 20
      • 2. 동시 출현 단어 쌍 자질 생성(Co-occurrence Feature Generation) = 21
      • 3. Topic Signature을 이용한 자질 추출 = 22
      • 4. 제목에 나타난 자질에 대한 가중치 부여 = 24
      • 5. 평탄화(Smoothing) = 25
      • 6. 문서 범주화 = 26
      • 제 Ⅳ 장 실험 및 토의 = 27
      • 1. 실험 데이터 = 27
      • 2. 실험 인자(Experimental Parameter) = 28
      • 3. 실험 결과 = 29
      • 4. 토의 = 34
      • 제 Ⅴ 장 결론 및 향후 연구 = 39
      • 1. 결론 = 39
      • 2. 향후 연구 = 40
      • 참고문헌 = 42
      • ABSTRACT = 45
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼