http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
윤준태(Jun-Tae Yoon),정의석(Eui-Seok Jong),송만석(Mansuk Song) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.11
복합 명사의 분석은 명사구내의 단어간 관계가 어휘의 선택에 의해 만들어진다는 점에서 다루기 어려운 문제로 여겨져 왔다. 본 논문에서는 복합 명사내 명사들의 언어학적 관계와 이를 기반으로 말뭉치에서 추출한 어휘간 공기 관계를 바탕으로 복합 명사의 구문 구조를 분석하는 방법을 제시한다. 여기서 복합 명사란 명사 열로 이루어진 복합 명사와 명사의 관형형에 의한 수식을 포함하는 명사구를 통틀어 자칭한다. 본 논문에서는 통사층에서의 명사간 관계를 술어-보어 관계와 한정 관계로 파악하고 이러한 두 관계를 말뭉치로서부터 추출하여 복합 명사의 구문 분석에 적용하였다. 어휘간 공기 데이타는 연세대학교 한국어 사전 편찬실 말뭉치의 3,000만 어절로부터 품사 태거와 부분 파서에 의해 구해졌으며, 학습 데이타로부터 분리된 말뭉치로부터 선택한 복합 명사에 대해 83.8%의 분석 성공률을 보였다. Compound noun analysis is a difficult problem because the relationship between noun components depends on lexical meaning. This paper presents a method to analyze the structures of nominal compounds based on the linguistic relations between nouns and their lexical co-occurrence relations which are extracted from the corpus. Compound noun includes a sequence of nouns and noun phrase modified by a noun with adnominal postposition. Two nouns in a compound noun are linked by either the predicate-argument or the qualifier-head relation at the syntactic level. The two relations are obtained from the corpus and applied to nominal compound analysis. Lexical co-occurrence data were extracted by the POS tagger and the partial parser from 30 million words of Yonsei Lexicographical Center Corpus. The precision rate of analysis is 83.8% for compound nouns selected from the test corpus separated from the training corpus.
송만석(Man-Suk Song),윤준태(Jun-Tae Yoon),김선호(Sun-Ho Kim) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.11
본 논문에서는 대량의 말뭉치로부터 추출한 어휘들의 공기 관계를 바탕으로 문장내의 어절간 연관도가 전연적으로 관리될 수 있는 전역적 연관 테이블(Global Association Table; GAT)을 정의한다. 그리고 이를 이용한 새로운 파싱 방법을 제안한다. 파서는 GAT를 이용해 하나의 어절에 대해 뒤따르는 어느 어절과 연관도가 가장 높은지를 전연적으로 예측할 수 있고 연관도에 따라 파싱의 행동을 결정한다. 즉, 본 연구에서 제안하는 파싱 알고리즘은 GAT내의 어절간 연관도에 의해 반결정적으로 (semi-deterministically) 이루어지며, 예측이 실패했을 경우에 차트로부터 차선의 후보를 선택한다. 이를 위해 연세대학교 한국어 사전 편찬실의 3000만 어절 말뭉치로부터 부분 파서를 이용해 명사구와 동사의 공기 관계를 구하고 이를 기반으로 어절과 어절의 상호 연관도를 구하였다. This paper presents a new parsing method using statistical information extracted from a corpus. We define the global association table(GAT) that makes the parser manage the lexical association globally. With the GAT where the associations between two words are computed, the parser determines which word is the most closely associated head for a given complement word in a sentence. Sentences are analyzed semi-deterministically by the associations in GAT. Whenever the expectation of the parser for the head fails, it chooses the alternatives using a chart to remove the backtracking. Co-occurrence data between verbs and nouns were extracted by the partial parser from 30 million eojeol corpus of Yonsei Lexicographical Center and used to compute the associations among eojeols.
김선호(Kim Seon Ho),윤준태(Yoon Jun Tae),송만석(Song Man Seok) 한국정보과학회 1996 한국정보과학회 학술발표논문집 Vol.23 No.1A
주어진 단어의 결합 가능성을 결정하는 것은 자연어 처리에서 필수적이다. 본 논문에서는 동사에 대한 명사구의 하위범주화를 중심으로 하여 이진관계(binary relation)로 표현될 수 있는 어휘정보를 말뭉치를 통해서 반자동적으로 습득하고 얻어진 어휘 정보에 관한 통계적 자료를 이용해 단어 간의 결합관계를 예측한다. 또한 시소러스를 이용하여 명사가 속한 클래스 통계정보로 결합 가능성을 구해내 학습 말뭉치에서 발견되지 않았던 단어를 그가 속한 클래스 정보로 해결하는 방법과 그 단어가 속한 클래스 중에서 가장 그 단어와 가까운 단어의 통계정보로 결합가능성을 결정하는 방법을 제안하겠다.