RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        문장성분의 다양한 자질을 이용한 한국어 구문분석 모델

        박소영,김수홍,임해창,Park So-Young,Kim Soo-Hong,Rim Hae-Chang 한국정보처리학회 2004 정보처리학회논문지B Vol.11 No.6

        본 논문에서는 효과적인 구문 중의성 해결을 위해 문장성분의 구문자질, 기능자질, 내용자질, 크기자질을 활용하는 확률적 한국어 구문분석 모델을 제안한다. 그리고, 제안하는 구문분석 모델은 한국어의 부분자유어순과 생략현상을 잘 처리할 수 있도록 문법규칙을 이진형식으로 제한한다. 실험을 통해 제안하는 구문분석 모델의 성능을 각 자질조합별로 분석한다. 분석결과는 서로 다른 특징을 갖는 자질의 조합이 서로 유사한 특징을 갖는 자질의 조합보다 구문중의성 해결에 더 유용하다는 것을 보여준다. 또한, 단일자질인 기능자질이 내용자질과 크기자질의 조합보다 성능이 더 우수함을 알 수 있다. In this paper, we propose a probabilistic Korean parsing model using a syntactic feature, a functional feature, a content feature, and a site feature of a syntactic object for effective syntactic disambiguation. It restricts grammar rules to binary-oriented form to deal with Korean properties such as variable word order and constituent ellipsis. In experiments, we analyze the parsing performance of each feature combination. Experimental results show that the combination of different features is preferred to the combination of similar features. Besides, it is remarkable that the function feature is more useful than the combination of the content feature and the size feature.

      • KCI등재

        다항시행접근 단순 베이지안 문서분류기의 개선

        김상범(Sang-Bum Kim),임해창(Hae-Chang Rim) 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.3·4

        단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형 중 가장 성능이 우수한 것으로 알려진 다항시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방법에 비해 상당한 성능향상을 가져옴을 알 수 있었다. Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.

      • KCI등재

        다중 자질 결정 목록을 이용한 단어 의미 중의성 해결

        서희철(Hee-Cheol Seo),임해창(Hae-Chang Rim) 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.7·8

        본 논문에서는 결정 목록을 이용해서 단어 의미 중의성을 해결하는 방법을 제안한다. 결정 목록은 하나 이상의 규칙으로 구성되며, 각 규칙에는 신뢰도가 부여되어 있고, 규칙은 불린 함수(=조건, precondition)와 부류(=의미, class)로 구성되어 있다. 분류 대상이 만족하는 불린 함수를 가진 규칙들 중에서 가장 신뢰도가 높은 규칙에 의해서 분류 대상의 부류가 정해진다. 기존 방법에서는 하나의 자질로 하나의 불린 함수를 구성하는 단일 자질 결정 목록을 이용해서 단어 의미 중의성을 해결했다. 이 경우, 자료 부족 문제와 전처리 과정의 오류에 민감하게 반응한다는 문제점이 있다. 본 논문에서는 기존의 단일 자질 결정 목록의 문제점을 해결하기 위해서, 하나 이상의 자질로 불린 함수를 구성하는 다중 자질 결정 목록을 제안하고, 다중 자질 결정 목록을 이용하여, 단어 의미 중의성을 해결하는 방법을 기술하고 있다. 단일 자질 결정 목록과 다중 자질 결정 목록을 비교하기 위해서, 1개의 한국어 의미 부착 말뭉치와 5개의 영어 의미 부착 말뭉치를 대상으로 단어 의미 중의성 해결 실험을 했다. 실험 결과 6개의 말뭉치 모두에서 다중 자질 결정 목록이 단일 자질 결정 목록에 비해서 더 좋은 결과를 나타냈다. This paper proposes a method of disambiguating the senses of words using decision lists, which consists of rules with confidence values. The rule of decision list is composed of a boolean function(=precondition) and a class(=sense). Decision lists classify the instance using the rule with the highest confidence value that is matched with it. Previous work disambiguated the senses using single feature decision lists, whose boolean function was composed of only one feature. However, this approach can be affected more severely by data sparseness problem and preprocessing errors. Hence, we propose multiple feature decision lists that have the boolean function consisting of more than one feature in order to identify the senses of words. Experiments are performed with 1 sense tagged corpus in Korean and 5 sense tagged corpus in English. The experimental results show that multiple feature decision lists are more effective than single feature decision lists in disambiguating senses.

      • 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템

        전희원(Hee-Won Jeon),임해창(Hae-Chang Rim) 한국정보과학회 언어공학연구회 2007 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2007 No.10

        최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다. 일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다. 본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.

      • 이산 사건 모델링을 위한 그래픽 도구의 설계

        송기순(Kee-Soon Song),임해창(Hae-Chang Rim),백두권(Doo-Kwon Baik) 한국정보과학회 1992 한국정보과학회 학술발표논문집 Vol.19 No.1

        시뮬레이션 모델링에 있어서 개념적인 실세계를 그림 요소를 이용하여 나타내면 쉽고 빠르게 모델을 설계할 수 있다. 따라서 모델링 단계에 있어서 그림 요소를 이용한 그래픽 도구가 필요하다. 이산 사건 시뮬레이션을 지원하는 DEVS-SCHEME은 객체 지향 개념을 도입하여 모듈성, 계층성 및 상속성을 제공하는 개선된 시뮬레이션 언어이다. 그러나 DEVS-SCHEME은 가시적인 표현 수단이 없는 단점이 있다. 본 논문에서는 DEVS-SCHEME의 가시적인 표현 수단이 없는 단점을 해결하기 위해 GRAMO(GRAphical MOdelling Tool)라는 그래픽 모델링 도구를 개발하였다. GRAMO는 기존의 그래픽 도구와는 달리 단위 모델을 그림 요소와 연결하여 다른 언어로 확장을 용이하게 하였고 기본적인 단위 모델들의 집합인 모델 베이스를 설정하여 모델들 간의 포트 연결을 통하여 새로운 모델을 생성할 수 있게 하였다.

      • 기계학습 기법을 이용한 문장경계인식

        박수혁 ( Su-hyuk Park ),임해창 ( Hae-chang Rim ) 한국정보처리학회 2008 한국정보처리학회 학술대회논문집 Vol.15 No.1

        본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능 하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

      • KCI등재

        한국어의 어순 구조를 고려한 Two-Path 언어모델링

        신중휘,박재현,이정태,임해창,Shin, Joong-Hwi,Park, Jae-Hyun,Lee, Jung-Tae,Rim, Hae-Chang 한국음향학회 2008 韓國音響學會誌 Vol.27 No.8

        The n-gram model is appropriate for languages, such as English, in which the word-order is grammatically rigid. However, it is not suitable for Korean in which the word-order is relatively free. Previous work proposed a twoply HMM that reflected the characteristics of Korean but failed to reflect word-order structures among words. In this paper, we define a new segment unit which combines two words in order to reflect the characteristic of word-order among adjacent words that appear in verbal morphemes. Moreover, we propose a two-path language model that estimates probabilities depending on the context based on the proposed segment unit. Experimental results show that the proposed two-path language model yields 25.68% perplexity improvement compared to the previous Korean language models and reduces 94.03% perplexity for the prediction of verbal morphemes where words are combined. n-gram 모델은 영어와 같이 어순이 문법적으로 제약을 받는 언어에 적합하다. 그러나 어순이 비교적 자유로운 한국어에는 적합하지 않다. 기존 연구는 어절 간 어순의 고려가 어려운 한국어의 특성을 반영한 twoply HMM을 제안했으나, 인접 어절 간 어순 구조를 반영하지 못하였다. 본 논문에서는 용언형태소 사이에 나타나는 인접 어절 간에 어순 특성을 반영하기 위해 두 어절을 결합하는 세그먼트 단위를 정의하고, 제안한 세그먼트 단위에서 문맥에 따라 확률을 달리 추정하는 two-path 언어모델을 제안한다. 그 결과 기존 한국어 언어모델에 비해 제안하는 two-path 언어모델은 기존 연구보다 25.68% 혼잡도를 줄였으며, 어절 간에 결합이 일어나는 경계인 용언형태소에서는 94.03%의 혼잡도를 줄였다.

      • 한국어 정보 처리 시스템의 전처리를 위한 미등록어 추정 및 철자 오류의 자동 교정

        박봉래(Park Bong Rae),임해창(Rim Hae Chang) 한국정보처리학회 1998 정보처리학회논문지 Vol.5 No.10

        In this paper, we propose a method of recognizing unknown words and correcting spelling errors(including spacing errors) to increase the performance of Korean information processing systems. Unknown words are recognized through comparative analysis of two or more morphologically similar eojeols(spacing units in Korean) including the same unknown word candidates. And spacing errors and spelling errors are corrected by using lexicalized rules which are autimatically extracted from very large raw corpus. The extraction of the lexicalized rules is based on morphological and contextual similarities between error eojeols and their correction eojeols which are confirmed to be used in the corpus. The experimental result shows that our system can recognize unknown words in an accuracy of 98.9%, and can correct spacing errors and spelling errors in accuracies of 98.1% and 97.1%, respectively.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼