유용한 디지털 형태의 문서들이 증가하고 그것들을 체계화할 필요성이 생기면서 자동 분류는 정보 시스템과 데이터 마이닝 분야에서 중요한 위치를 가지게 되었다. 많은 기계 학습 알고리...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T11803018
전주: 전북대학교 대학원, 2009
학위논문(박사) -- 전북대학교 대학원 대학원 , 전자.정보공학부(컴퓨터공학) , 2009. 8
2009
영어
역전파 신경망 알고리즘 ; 문서 분류 ; 정보 검색 ; 워드넷 ; 의미유사도 ; Singular Value Decomposition(SVD) ; 인공지능
전북특별자치도
Effective Refinement Strategies for BPNN and its application to concept based text categorization system
x, 116p; 26cm
전북대학교 논문은 저작권에 의해 보호받습니다.
지도교수:박순철
참고문헌 : p.102-116
0
상세조회0
다운로드국문 초록 (Abstract)
유용한 디지털 형태의 문서들이 증가하고 그것들을 체계화할 필요성이 생기면서 자동 분류는 정보 시스템과 데이터 마이닝 분야에서 중요한 위치를 가지게 되었다. 많은 기계 학습 알고리...
유용한 디지털 형태의 문서들이 증가하고 그것들을 체계화할 필요성이 생기면서 자동 분류는 정보 시스템과 데이터 마이닝 분야에서 중요한 위치를 가지게 되었다. 많은 기계 학습 알고리즘들은 문서 분류 기능을 적용하고 있다. 대부분의 전통적인 문서 분류 시스템들은 단순한 단어들의 묶음(벡터)에 기초하고 있다. 그러나 이런 방법은 고차원의 특징 공간을 가지며 단어들 사이와 문서들 사이의 관계성을 무시하게 되어 분류의 효율성과 정확성을 떨어뜨리게 된다.
본 논문에서는 통계와 시소러스를 사용하여 분류 성능을 향상시킨 개념 기반 분류 알고리즘을 사용하였다. 본 논문에서 문서 분류기로 사용된 알고리즘은 K-Nearest Neighbor (KNN)와 역전파 신경망 알고리즘(Back Propagatrion Neural Network, BPNN)이다. BPNN은 분류와 패턴 인식 분야에서 광범위하게 사용되어 왔다. 그러나 표준 BPNN은 일반적으로 느린 학습 속도와 쉽게 지역 최소값에 빠진다는 단점을 가지고 있다.
본 논문에서는 BPNN 알고리즘의 두 가지 유효한 정밀화 방법을 제안하고 개념기반 분류 시스템에 적용했다. 제안된 방법들은 지역최소값에 빠지는 것을 개선하면서 신경망의 학습속도를 빠르게 만들 수 있다. 실험을 위하여 reuter-21578과 20 news group 데이터셋을 사용하였다. 실험 결과로 측정된 정확률, 재현율, F-measure 값을 통하여 본 논문이 제안한 분류 알고리즘이 높은 성능을 가지게 되었음을 알 수 있을 것이다.
다국어 초록 (Multilingual Abstract)
Due to the increased availability of documents in digital form and the ensuing need to organize them, automatic text categorization has gained a prominent status in the information systems and data mining field. Many machine learning algorithms have b...
Due to the increased availability of documents in digital form and the ensuing need to organize them, automatic text categorization has gained a prominent status in the information systems and data mining field. Many machine learning algorithms have been applied to text categorization tasks. Traditional text categorization systems are mostly based on bag of words. But this method using high dimensional feature space and ignoring relationships between terms and documents is decreased categorization efficiency and accuracy. In this dissertation, we use concept based text categorization which is based on statistic method and thesaurus based method to improve the categorization performance. We also employ K Nearest Neighbor (KNN) and Back Propagation Neural Network (BPNN) as text classifier. KNN is a simple and famous approach for text categorization. BPNN has been widely used in classification and pattern recognition. However the standard BPNN has some generally acknowledged limitations such as slow training speed and easily trap into local minimum. This dissertation proposes two effective refinement strategies for BPNN and applies them to concept based text categorization systems. These methods can speed up neural network training as well as alleviate the problem of being trapped in a local minimum. We conduct the experiments on the standard reuter-21578 and 20 news group data sets. Experimental results show that our proposed methods are able to achieve high categorization effectiveness as measured by precision, recall and F-measure.
목차 (Table of Contents)