http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
문맥자유 문법을 위한 병렬 파싱 알고리즘의 설계 및 성능 분석
나동렬(Dong-Yul Ra),이진호(Jin-Ho Lee),김종현(Joug-Hyun Kim) 한국정보과학회 1996 정보과학회논문지(B) Vol.23 No.9
본 논문에서는 일반적인 문맥 자유 언어(Context-Free Language; CFL)를 인식하고 파싱하기 위한 병렬 알고리즘을 제안한다. 이 알고리즘은 하이퍼큐브와 같은 소결합 다중프로세서 시스템(loosely-coupled multiprocessor system)에 적합하도록 설계되었다. 이를 위한 시스템 구조는 간단한 링(ring) 구조이면 되며, n을 입력스트링의 길이라 할때 프로세서의 수 p 는 n 이하의 임의의 수이면 된다(즉, 1≤p≤n). 분석결과에 따르면 제안한 병렬 알고리즘의 시간 복잡도(time complexity)는 최악의 경우에 O(n³/p) 인 것으로 나타났다. 이 알고리즘은 Earley의 알고리즘에 기반을 두고 있기 때문에 임의의 문맥 자유 문법(Context-Free Grammar; CFG)에 대하여 적용될 수 있다. 이 알고리즘은 간단한 작업 배치 방법을 이용하였음에도 높은 성능 향상을 얻을 수 있었다. In this paper, a parallel algorithm is given for recognizing and parsing arbitrary context-free languages. The algorithm operates on multiprocessor systems with loosely-coupled architectures including hypercubes. The requirement on the architecture is simple : the processors need to form just a one-way ring. The requirement on p, the number of processors used, is also flexible: any p satisfying 1≤p≤n (where n is the length of the input string). The analysis shows that the algorithm operates in O(n³/p) time in the worst case. This is the optimal performance one can get with the given architecture. Our parallel algorithm is based on Earley's algorithm and thus it can be used for arbitrary context-free grammars. High performance was achieved with a simple job allocation strategy.
2단계 최대 엔트로피 모델을 이용한 한국어 개체명 인식
김성원(Seong-Won Kim),나동렬(Dong-Yul Ra) 한국정보과학회 강원지부 2008 한국정보과학회 강원지부 학술대회 논문집 Vol.2 No.1
본 논문에서는 2단계 최대 엔트로피 모델을 이용하는 한국어 개체명 인식방법을 제안한다. 개체명 인식을 개체명 경계 인식과 개체명 인식으로 구분하고, 최대 엔트로피 모델을 사용한다. 1단계 개체명 경계 인식에서는 경계의 구분을 위해서 경계 레이블을 도입하고, 개체명의 경계를 인식한다. 2단계 개체명 인식에서는 경계 인식에서 태깅된 개체명 후보들의 주변 문맥 정보 중에서 조사 정보, 용언 정보, 헤드 명사 정보 등을 이용하여 후보들의 개체명 의미 범주를 결정한다. 이 기법으로 높은 정확률의 시스템을 달성할 수 있었다.
단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원
양성일 ( Seong-il Yang ),김영길 ( Young-kil Kim ),서영애 ( Seo Young-ae ),박은진 ( Eun-jin Park ),나동렬 ( Dong-yul Ra ) 한국정보처리학회 2007 한국정보처리학회 학술대회논문집 Vol.14 No.1
한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수 있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.