http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
양단희(Dan-Hee Yang),송만석(Mansuk Song) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.7
문장을 의미분석하기 위해서 선택제약(selectional restrictions)과 논항구조(argument structures)에 대한 지식은 필수적이다. 본 연구는 이러한 지식을 표현하고 구축하기 위해 주로 사용되어 온 전통적인 성분분석(componential analysis) 이론의 문제점을 지적한다. 그리고 그 대안으로 문장내 각 논항(argument)의 격(Case) 파악을 위한 직접적인 지식으로 ‘격 원형성’(Case prototypicality) 개념을 제안한다. 또한 그 개념을 사용하여 명사와 용언에 속하는 단어의 의미 표현을 정의하고 이러한 의미가 말뭉치(corpus)로부터 기계학습(machine learning)에 의해 획득될 수 있음을 보인다. 그리고 충분한 학습 데이타 구축의 어려움을 경감시키기 위해 두 가지 방법을 제시한다. 하나는 격 결정 유형 특성을 사용하는 것이고 다른 하나는 지도방식(supervised)과 비지도방식의 기계학습을 결합시키는 것이다. To provide a proper semantic analysis of linguistic expressions, we need the knowledge of selectional restrictions and argument structures. This study criticizes the theory of a traditional componential analysis which has been mainly used to represent and construct these two types of knowledge. Instead, we propose the concept of Case prototypicality which is a direct knowledge for picking out Case of each argument in a sentence, Also, we show that the meaning of words which belong to noun and verb categories can be defined by using the concept and it can be acquired from a corpus by machine learning, In addition, to reduce the burden of building sufficient learning data, we show two methods: One is to use the characteristics of Case determination type. The other is to incorporate both supervised and unsupervised machine learning.
윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.3
구문 분석에 있어서 대등 접속 구문을 인식하는 일은 매우 중요하다. 본 논문은 두 구문간의 ‘병렬성’을 이용하여, 대등 접속 구문을 포함하는 한국어 문장을 분석하는 알고리즘을 제안한다. 일반적으로 대등 접속 구문은 접속어를 중심으로 대칭적 구조를 가지고 있는데 이는 접속 구문을 인식하는데 매우 유용하다. 특히 본 접근 방법에서는 구문 분석 중간에 생기는 부분 분석의 잇점을 취하여 우리 나라 접속어(conjunction)가 가지는 어휘적 중의성(lexical ambiguity)까지 해결할 수 있도록 하며 , 접속구문에서 흔히 발생하는 구조적인 중의성 문제를 해결한다. 또, 파서가 말뭉치 분석 도구와 같은 실제 시스템에 응용되기 위해서는 모든 가능한 구문 분석 결과 중 하나를 선택해야 하는데, 이를 위해 각 구(phrase)가 결합할 때마다 결합의 유형과 거리에 대한 가중치를 부여한다. 마지막으로 이들 가중치에 따라 최적해를 구한다. It is important to analyze coordinate conjunctive sentences in syntactic analysis. This paper suggests an algorithm for analyzing the Korean sentences with coordinate conjunctive structures using 'parallelism'. In many cases coordinate sentences have symmetric structures which are very useful to identify them. Especially, since this system identify them during parsing, the lexical ambiguities of Korean conjunctions can be resolved, which makes it easy to resolve the structural ambiguities. In order to use this parser in an application system such as a corpus analyzer, the correct one must be selected in multiple parsed results. For this, whenever phrases are unified, the system gives weights to the newly generated node according to the unfication type and the distance of the phrases. Lastly, the best result of all parse trees is determined by given weights.
양단희(Dan-Hee Yang),송만석(Mansuk Song) 한국정보과학회 1998 한국정보과학회 학술발표논문집 Vol.25 No.1B
자연어처리에 기계학습(machine learning) 기법을 사용할 때 비지도방식(unsupervised)인 경우는 자료 빈약성(data sparseness) 현상에 부딪치고 지도방식(supervised)인 경우는 충분한 학습자료(training data) 구축에 애로점을 겪는다. 이들은 모두 학습에 필요한 만큼의 학습자원을 충분히 갖지 못하는 데서 오는 어려움으로 이에 대해 구체적으로 논의해 보고 말뭉치(corpus) 기반 자연어처리를 위해 학술적 측면이 아닌 실용적인 측면에서 나름의 광대한 학습자원 구축 방안을 제안한다.
오류 견고성을 지닌 형태소 분석기와 공기정보를 이용한 자동철자교정
이영신(YoungSin Lee),박영자(YoungJa Park),송만석(Mansuk Song) 한국정보과학회 1998 한국정보과학회 학술발표논문집 Vol.25 No.1B
본 논문에서는 두 어절간의 편집거리 계산을 기반으로 하는 오류 견고성을 지닌 형태소 분석기와 문맥 안에서의 공기 정보를 사용하여 문자 인식기의 인식 오류를 수정하는 방법을 제안한다. 한국어의 음절 특성과 인식기의 오류 유형을 이용함으로 기존의 편집거리 계산 알고리즘보다 계산을 빨리 한다. 본 논문에서 제안하는 자동 철자 교정은 세 단계로 구성된다. 첫째, 한국어의 음절 특성과 인식기의 오류 유형이 이용된 어절 간 편집 거리를 계산함으로 형태소 분석을 시도, 철자를 검사한다. 둘째, 형태소 분석 과정 중 계산된 오류 위치를 이용하여 틀린 어절에 대한 후보 어절들을 생성한다. 셋째, 생성되어진 후보들 중에 하나의 해를 결정하기 위해 단어들간의 공기(co-occurrence) 정보, 어절을 이루는 단어와 형식 형태소간의 공기정보 그리고 오류 유형에 대한 통계 자료를 사용한다. 3,000개의 어절에서 실험한 결과 단어 수준으로 93%가 옳게 교정되었다.
박혜준(Hyejun Park),윤준태(Juntae Yoon),송만석(Mansuk Song) 한국정보과학회 1994 한국정보과학회 학술발표논문집 Vol.21 No.1
대량으로 수집된 말뭉치에 품사 정보를 추가한다면 언어 현상을 연구하는데 유용하게 사용될 것이다[3]. 자동으로 품사꼬리(tag)를 달아 주기 위해서는 형태소 분석 단계를 거쳐야 하는데 이 단계에서 많은 중의성이 발생한다. 그러나 한국어의 중의성 해결을 위한 연구들은 아직 미흡한 편이며 방법 역시 확률 정보를 이용한 방법으로 제한되어 있다. 본 연구는 확률정보와 묶인말을 이용하여 품사적 중의성을 해결한다. 또한 묶인말에 대한 정보를 제공하며 대형 말뭉치를 대상으로 하는 실용적인 시스템이다.