http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Lightweight Named Entity Extraction for Korean Short Message Service Text
( Choong-nyoung Seon ),( Jinhwan Yoo ),( Harksoo Kim ),( Ji-hwan Kim ),( Jungyun Seo ) 한국인터넷정보학회 2011 KSII Transactions on Internet and Information Syst Vol.5 No.3
In this paper, we propose a hybrid method of Machine Learning (ML) algorithm and a rule-based algorithm to implement a lightweight Named Entity (NE) extraction system for Korean SMS text. NE extraction from Korean SMS text is a challenging theme due to the resource limitation on a mobile phone, corruptions in input text, need for extension to include personal information stored in a mobile phone, and sparsity of training data. The proposed hybrid method retaining the advantages of statistical ML and rule-based algorithms provides fully-automated procedures for the combination of ML approaches and their correction rules using a threshold-based soft decision function. The proposed method is applied to Korean SMS texts to extract person`s names as well as location names which are key information in personal appointment management system. Our proposed system achieved 80.53% in F-measure in this domain, superior to those of the conventional ML approaches.
시간의 단위별 처리를 이용한 자동화된 한국어 시간 표현 인식 및 정규화 시스템
선충녕(Choong-nyoung Seon),강상우(Sangwoo Kang),서정연(Jungyun Seo) 한국인지과학회 2010 인지과학 Vol.21 No.4
시간 정보는 문서나 문장 등에서 매우 중요한 정보로 사용되기 때문에 다양한 종류의 데이터에서 시간 정보의 인식은 매우 중요하다. 시간 정보는 일정한 형태를 가진 것으로 간주되지만 실제 사용되는 시간 표현은 매우 다양하고 복잡하며 정보의 일부가 빈번하게 생략되는 경우가 발생한다. 본 연구에서는 시간 표현의 추출뿐만 아니라 추출된 표현을 정규화된 표준 형식으로 변환하는 범용 시간 표현 추출 및 변환 시스템을 제안한다. 다양한 시간 표현의 추출과 변환에 필요한 노력을 줄이고 새로운 데이터에 대한 확장성을 보장하기 위해 기본 시간단위를 정의하였다. 추출단계에서는 기본 시간 단위의 조합으로 구성된 사전을 사용하여 가능한 시간 표현들을 추출한다. 정규화 변환 단계에서는 인접 추출 정보와 기준 시간 등을 사용하여 생략된 기본 시간 단위 정보를 복원하고 최종적으로 모든 기본 시간 정보들은 통합되어 정규화된 표준 형식으로 변환된다. 제안한 시스템은 모바일 기기 등의 잡음 환경에서 강인한 성능을 보장하며 영역이나 언어에 대해 독립적이므로 많은 영역에서 응용이 가능하다. 본 연구는 실험에서 다량의 오류가 포함된 SMS 데이터에서 시간 표현 추출 정확도 93.8%, 시간 표현 변환 정확율 93.2%을 보임으로써 오류에 강인하면서도 높은 성능을 유지함을 증명하였다. Time expressions are a very important form of information in different types of data. Thus, the recognition of a time expression is an important factor in the field of information extraction. However, most previously designed systems consider only a specific domain, because time expressions do not have a regular form and frequently include different ellipsis phenomena. We present a two-level recognition method consisting of extraction and transformation phases to achieve generality and portability. In the extraction phase, time expressions are extracted by atomic time units for extensibility. Then, in the transformation phase, omitted information is restored using basis time and prior knowledge. Finally, every complete atomic time unit is transformed into a normalized form. The proposed system can be used as a general-purpose system, because it has a language- and domain-independent architecture. In addition, this system performs robustly in noisy data like SMS data, which include various errors. For SMS data, the accuracies of time-expression extraction and time-expression normalization by using the proposed system are 93.8% and 93.2%, respectively. On the basis of these experimental results, we conclude that the proposed system shows high performance in noisy data.
선충녕(Choong-Nyoung Seon),민경구(Kyungkoo Min),서정연(Jungyun Seo) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.1
인터넷의 확장에 따라 형태소 분석기에서 사용하는 사전의 규모도 커지고 있다. 이러한 상황은 사전의 증가를 가져옴으로써 기존 형태소 분석기의 자료 구조에 대한 새로운 요구를 발생시켰다. 기존의 트라이를 이용한 방법은 노드의 과다 생성과 데이터 부족문제로 발생하는 메모리 낭비의 문제를 가지고 있다. 효율적인 메모리 사용을 위해서는 해시 구조가 적절하다. 하지만 이 경우 트라이에 비해 검색 횟수의 복잡도가 비약적으로 증가되는 문제점을 안고 있다. 본 논문에서는 해시를 위한 길이 비트맵을 이용하여 검색 횟수를 제한할 수 있는 방법을 제안하였다. 실험을 통해 제안된 자료 구조와 해시와 트라이의 형태소 사전 검색 횟수를 비교하였으며, 비문 사용이 많은 영역에서 효율적임을 입증하였다.
Review of Korean Speech Act Classification
Harksoo Kim,Choong-Nyoung Seon,Jungyun Seo 한국정보과학회 2011 Journal of Computing Science and Engineering Vol.5 No.4
To resolve ambiguities in speech act classification, various machine learning models have been proposed over the past 10 years. In this paper, we review these machine learning models and present the results of experimental comparison of three representative models, namely the decision tree, the support vector machine (SVM), and the maximum entropy model (MEM). In experiments with a goal-oriented dialogue corpus in the schedule management domain, we found that the MEM has lighter hardware requirements, whereas the SVM has better performance characteristics.
Review of Korean Speech Act Classification: Machine Learning Methods
Kim, Hark-Soo,Seon, Choong-Nyoung,Seo, Jung-Yun Korean Institute of Information Scientists and Eng 2011 Journal of Computing Science and Engineering Vol.5 No.4
To resolve ambiguities in speech act classification, various machine learning models have been proposed over the past 10 years. In this paper, we review these machine learning models and present the results of experimental comparison of three representative models, namely the decision tree, the support vector machine (SVM), and the maximum entropy model (MEM). In experiments with a goal-oriented dialogue corpus in the schedule management domain, we found that the MEM has lighter hardware requirements, whereas the SVM has better performance characteristics.