RISS 검색 - 학위논문 상세보기

다국어 초록 (Multilingual Abstract)

We describe a new feature selection method for text categorization system using Topic Signature and co-occurrence words. Co-occurrence word is a pair of words to occur within a window in same documents. We use co-occurred words to classify documents instead of a single word, because we hypothesize that co-occurred words have high ability to classify documents for unique meaning. We use Topic Signature as a feature selection method based log-likelihood ratio. Topic Signature was applied for finding topic words in text summarization. In order to archive a high performance, we use TF-Topic Signature and weight of features to occur in within titles. And we use Naive Bayesian classifier for text classification.
We use Reuters-21578 data collection, a standard data collection for evaluating English text categorization system, for evaluating proposed system. We can compare objectively between the proposed system and the previous systems from the data collection. For the result of experiments, we can see that the proposed system give a good performance, when compare the previous systems.
The proposed system has some weak point that make many features by using co-occurrence word feature generation. Focus of our future works is to solve the weak points. But we give a good possibility with proposed method, so we expect that our research result is contributed to feature research.

번역하기

국문 초록 (Abstract)

본 논문에서는 Topic Signature와 동시 출현 단어 쌍 자질을 이용한 새로운 문서 범주화 방법에 대하여 기술한다. 동시 출현 단어 쌍은 한 문서에서 일정한 크기의 윈도우 내에 속하는 단어의 쌍으로 정의된다. 본 논문에서는 단어 하나보다 단어의 쌍이 문서의 범주를 판단하는데 더 좋은 자질로 사용될 수 있을 것이라고 가정하였다. 일반적으로 단어 하나는 여러 의미로 사용될 수 있으므로 여러 범주에서 나타날 가능성이 있다. 그러나 단어 쌍은 특별한 의미로 한정되어 특정한 범주에서만 나타날 가능성이 높아지기 때문이다. 자질 추출 방법으로는 Log-likelihood ratio를 기반으로 하는 Topic Signature를 사용한다. Topic Signature는 문서 요약 분야에서 문서의 핵심 단어를 찾기 위해 사용되었던 방법으로, 문서 범주화에서 사용하는 데는 몇 가지 약점을 가지고 있다. 본 논문에서는 이러한 약점을 보완하기 위하여 TF-Topic Signature와 제목에 나타난 자질에 대한 가중치를 부여하는 방법을 사용한다. 그리고 베이지언 분류기(Naive Bayesian Classifier)를 사용하여 문서를 분류한다.
본 논문의 성능 평가에는 Reuters-21578 문서 집합을 사용한다. Reuters-21578 문서 집합은 영어 문서 범주화 시스템 성능 평가의 표준 문서 집합으로 많은 기존 연구에 많이 사용되어 왔다. 따라서 제안 시스템과 기존 시스템을 객관적으로 비교할 수 있다. 실험을 통해 살펴본 결과 기존 시스템과 비교했을 때 좋은 성능을 보였다.
제안 시스템은 동시 출현 단어 쌍 자질을 사용하기 때문에 너무 많은 자질을 생성됨으로 인한 몇 가지 문제점을 안고 있다. 이들 문제점은 향후 연구를 통해 보완해야할 사항이다. 본 논문에서 제안한 방법들은 문서 범주화 시스템에서의 가능성을 충분히 보고 있으므로 앞으로의 연구에도 기여할 수 있을 것이라 기대한다.

번역하기

본 논문에서는 Topic Signature와 동시 출현 단어 쌍 자질을 이용한 새로운 문서 범주화 방법에 대하여 기술한다. 동시 출현 단어 쌍은 한 문서에서 일정한 크기의 윈도우 내에 속하는 단어의 쌍...

목차 (Table of Contents)

제 Ⅰ 장 서론 = 1
제 Ⅱ 장 관련 연구 = 3
1. 자질 추출(Feature Selection) = 4
2. 문서 범주화 모델(Text Categorization Model) = 8
3. 문서 집합(Text Categorization Test Collection) = 13

제 Ⅰ 장 서론 = 1
제 Ⅱ 장 관련 연구 = 3
1. 자질 추출(Feature Selection) = 4
2. 문서 범주화 모델(Text Categorization Model) = 8
3. 문서 집합(Text Categorization Test Collection) = 13
4. 기존 연구(Previous Research) = 15
제 Ⅲ 장 Topic Signature와 동시 출현 단어 쌍을 이용한 문서 범주화 = 18
1. 전처리(Preprocessing) = 20
2. 동시 출현 단어 쌍 자질 생성(Co-occurrence Feature Generation) = 21
3. Topic Signature을 이용한 자질 추출 = 22
4. 제목에 나타난 자질에 대한 가중치 부여 = 24
5. 평탄화(Smoothing) = 25
6. 문서 범주화 = 26
제 Ⅳ 장 실험 및 토의 = 27
1. 실험 데이터 = 27
2. 실험 인자(Experimental Parameter) = 28
3. 실험 결과 = 29
4. 토의 = 34
제 Ⅴ 장 결론 및 향후 연구 = 39
1. 결론 = 39
2. 향후 연구 = 40
참고문헌 = 42
ABSTRACT = 45

상세검색

RISS 보유자료

상세검색

해외전자자료

Topic Signature와 동시 출현 단어 쌍을 이용한 문서 범주화

부가정보

분석정보

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료