http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템
이원휘,정성종,안동언,Lee, Won-Hee,Chung, Sung-Jong,An, Dong-Un 한국정보처리학회 2009 정보처리학회논문지B Vol.16 No.1
오늘날 웹이 일반화되면서 사람들은 원하는 정보를 웹을 통해 얻고, 또한 제공하고 있다. 웹이 다양한 정보의 제공과 습득의 장이라는 편의성을 제공하고 있지만, 반면에 너무 많은 정보, 무분별한 유해 정보의 범람 등 여러 가지 문제를 내포하고 있다. 현재 유해 웹 문서를 분류하기 위한 다양한 방법이 연구되고 사용되고 있다. 그러나 각각의 방법들이 갖는 단점들로 인해 획기적인 성과를 내지 못하고 있다. 본 논문에서는 유해 정보로부터 사회적으로 보호를 받아야 할 사용자들을 보호하기 위한 수단으로 유해 웹 문서 차단 방법에 대해 제안하고자 한다. 본 논문에서는 키워드 필터링과 SVM 알고리즘을 이용한 2단계 분류 과정을 통해 분류의 정확률을 높이고자 하였다. As World Wide Web is more popularized nowadays, the environment is flooded with the information through the web pages. However, despite such convenience of web, it is also creating many problems due to uncontrolled flood of information. The pornographic, violent and other harmful information freely available to the youth, who must be protected by the society, or other users who lack the power of judgment or self-control is creating serious social problems. To resolve those harmful words, various methods proposed and studied. This paper proposes and implements the protecting system that it protects internet youth user from harmful contents. To classify effective harmful/harmless contents, this system uses two step classification systems that is harmful word filtering and SVM learning based filtering. We achieved result that the average precision of 92.1%.
Selection of Cluster Hierarchy Depth in Hierarchical Clustering using K-Means Algorithm
이원휘,이신원,정성종,안동언,Lee, Won-Hee,Lee, Shin-Won,Chung, Sung-Jong,An, Dong-Un The Institute of Electronics and Information Engin 2008 電子工學會論文誌-CI (Computer and Information) Vol.45 No.2
정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 K-Means 알고리즘을 이용하여 효율적으로 정보 검색을 하고 검색결과를 계층적으로 볼 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 더 나은 성능을 보임을 알 수 있다. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means reduces a time complexity. Think of the factor of simplify, high-quality and high-efficiency, we combine the two approaches providing a new system named CONDOR system with hierarchical structure based on document clustering using K-means algorithm. Evaluated the performance on different hierarchy depth and initial uncertain centroid number based on variational relative document amount correspond to given queries. Comparing with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.
이원휘 ( Won-hee Lee ),최현 ( Hyun Choi ),이상곤 ( Samuel Sangkon Lee ) 한국정보처리학회 2004 한국정보처리학회 학술대회논문집 Vol.11 No.1
우리는 특정 문서를 읽을 때 문서 전체를 읽지 않더라도 대표적인 몇 개의 단어를 보는 것만으로 정치나 경제, 스포츠 등의 분야를 정확히 인지할 수 있다. 문서 전체를 대상으로 하지 않고 부분텍스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집문서의 분야를 정확히 지시하는 분야연상어를 자동으로 수집하는 시스템을 설계하고 구현하는데 목적이 있다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준, 안정성 랭크, 집중률, 빈도정보를 이용하여 단일 분야연상어를 수집하는 방법을 제안하고 구현한다.
이원휘(Won-Hee Lee),김도연(Do-Yun Kim),이상곤(Samuel Sangkon Lee) 한국정보과학회 2004 한국정보과학회 학술발표논문집 Vol.31 No.2Ⅰ
사람은 문서를 읽을 때 문서 전체를 읽지 않더라도 대표적인 단어를 보는 것만으로 정치, 경제, 교육,스포츠 등의 분야를 정확히 인지한다. 이러한 단어를 분야연상어로 정의하고 빈도수 조사를 통해 전자사전에 자동으로 구축한다. 이러한 분야연상어는 문서의 초기인식 시 어느 분야인지 분명하지 않거나 애매한 경우에도 문서를 읽어가면서 분야를 인지할 수 있도록 도와준다. 본 논문에서는 이러한 특성을 가지고 있는 분야연상어를 이용하여 시스템에 새로운 문서가 주어질 때 해당 문서의 분야정보를 추출하고, 분야연상어의 분포정보를 인간에게 그래픽컬 하게 보여줄 수 있도록 분야인식기를 설계하고 구현한다.
K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정
이신원 ( Shin-won Lee ),이원휘 ( Won-hee Lee ) 한국인터넷정보학회 2011 인터넷정보학회논문지 Vol.12 No.2
대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다. Clustering methods is divided into hierarchical clustering, partitioning clustering, and more. If the amount of documents is huge, it takes too much time to cluster them in hierarchical clustering. In this paper we deal with K-Means algorithm that is one of partitioning clustering and is adequate to cluster so many documents rapidly and easily . We propose the new method of selecting initial seeds in K-Means algorithm. In this method, the initial seeds have been selected that are positioned as far away from each other as possible.
김보미 ( Bo-mi Kim ),이원휘 ( Won-hee Lee ),이상곤 ( Samuel Sangkon Lee ) 한국정보처리학회 2004 한국정보처리학회 학술대회논문집 Vol.11 No.2
최근 인터넷이 우리생활에 점차 보급됨에 따라 전자메일이 일상의 연락수단일 뿐만 아니라 여러 가지 목적의 업무처리에 있어서도 중요한 통신수단으로 이용되고 있다. 이에 따라 전자메일의 중요도를 자동적으로 판정하는 문서 필터링 방법이 연구되고 있다. 본 논문은 수신된 메일문서에서 송신처, 제목, 문서유형 등의 다중속성의 조합으로 구성되는 구조적 지식을 획득하여 전자메일을 필터링 하는 방법을 제안한다.
정태한(Tae-Han Jung),이원휘(Won-Hee Lee),장영권(Young-Kweon Jang),안동언(Dong-Un An),정성종(Sung-Jong Chung) 대한전자공학회 2006 대한전자공학회 학술대회 Vol.2006 No.11
The information environment of today consists of the sea of information through web as it is popularized. Also internet environment is overflowing with harmful information for example, lewdness, violence and suicide. To avoid those harmful web contents, various methods have been proposed and studied. This paper proposes and implements the protecting system that it protects internet youth user from harmful contents. We used Naive Bayesian algorithm and Paul Graham algorithm harmful/non-harmful document.
화제 출현·계속·전환 처리를 이용한 한국어 문서의 단락분할
임수정 ( Su Jeong Lim ),이원휘 ( Won Hee Lee ),이상곤 ( Samuel Sangkon Lee ) 한국정보처리학회 2005 한국정보처리학회 학술대회논문집 Vol.12 No.1
복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 단락분할 시스템을 개발한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야 예를 들면, 문서분류 및 요약 등의 기초연구에서 중요한 역할을 담당할 기술이다. 본 논문에서는 화제의 출현, 계속, 전환 시점을 고려하여 출현하는 각 화제의 단락구분 방법에 대하여 제안한다. 단락 구분 시문서의 의미적인 실마리가 끊어지지 않도록 단락을 추출하는 방법을 제안한다.
검색과 분류가 동시에 가능한 JULSE 시스템의 설계 및 구현
장정효 ( Jeong-hyo Jang ),손주성 ( Ju-sung Son ),김도연 ( Do-yun Kim ),이상곤 ( Samuel Sangkon Lee ),이원휘 ( Won-hee Lee ),안동언 ( Dong-un Ahn ) 한국정보처리학회 2005 한국정보처리학회 학술대회논문집 Vol.12 No.2
기 위해서는 본문 전체를 읽어 보아야 그 적절성 여부를 알 수 있다. 본 논문에서 제안하는 방법은 질의어가 지시하는 분야를 분야연상어를 이용하여 자동으로 파악하고, 사용자가 원하는 분야에서의 검색이 이루어지도록 하는 검색과 분류가 동시에 가능한 엔진을 설계하여 검색결과의 성능을 향상하고자 한다. 이와 함께 적당한 분야연상어가 다수 출현한 단락을 사용자에게 제공하여 본문 전체를 보지 않아도 질의어에 적당한 문서인지를 빠르게 파악하도록 설계하여 구현하였다.