RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • SCOPUS

        Issues and Empirical Results for Improving Text Classification

        Youngjoong Ko,Jungyun Seo 한국정보과학회 2011 Journal of Computing Science and Engineering Vol.5 No.2

        Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

      • KCI등재

        준지도 학습 기반의 자동 문서 범주화

        고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2008 정보과학회논문지 : 소프트웨어 및 응용 Vol.35 No.5

        자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업이다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반으로서, 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나, 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서, 준지도 학습 기반의 자동 문서 범주화 기법을 제안한다. 제안된 기법은 범주가 할당되지 않은 말뭉치와 각 범주의 핵심어만을 사용한다. 각 범주의 핵심어로부터 문맥간의 유사도 측정 기법을 이용한 부스트래핑(bootstrapping) 기법을 통하여 범주가 할당된 학습문서를 자동으로 생성하고, 이를 이용하여 학습하고 문서 범주화 작업을 수행한다. 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에서 유용하게 사용될 수 있을 것이다. The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. While it is easy to collect the unlabeled documents, it is not so easy to manually categorize them for creating training documents. In this paper, we propose a new text categorization method based on semi-supervised learning. The proposed method uses only unlabeled documents and keywords of each category, and it automatically constructs training data from them. Then a text classifier learns with them and classifies text documents. The proposed method shows a similar degree of performance, compared with the traditional supervised learning methods. Therefore, this method can be used in the areas where low-cost text categorization is needed. It can also be used for creating labeled training documents.

      • 요구 사항 문장 범주화를 이용한 웹 기반의 요구 사항 추출 지원 시스템

        고영중(Youngjoong Ko),강기선(Kisun Kang),김재선(Jaeseon Kim),박수용(Sooyong Park),서정연(Jungyun Seo) 한국정보과학회 2000 정보과학회논문지 : 소프트웨어 및 응용 Vol.27 No.4

        시스템이 사용되는 분야가 점점 복잡해지고 대형화됨에 따라 시스템 개발에 있어 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 인터넷(internet)의 발전으로 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 자연어로 표현되는 요구 사항 문장을 유사도 측정 기법을 이용하여 주제별로 범주화(categorization)함으로써 분산 환경에서 수집된 요구 사항 문장을 분석하기 위한 기초를 제공할 수 있는 요구 사항 추출 지원 시스템을 제안한다. 제안된 시스템은 단어간, 문장간의 유사도 측정 기법을 이용하여 수집된 요구 사항 문장들을 주제별로 자동으로 분류함으로써 요구 사항 분석 시 초기 작업의 어려움을 줄이고 신속하고 정확하게 분석 작업을 수행하도록 지원할 것이다. 본 논문에서는 단어간, 문장간 유사도 측정 기법을 이용한 범주화 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 추출, 처리되는 과정을 보여주고 있다. As a software becomes more complicated and large-scaled, it is very important for a software engineer to analyze user's requirements precisely and apply them effectively in the development stage. Due to the growth of the internet, the necessity of requirements elicitation and analysis in distributed environments has also become larger. This paper proposes a requirements elicitation supporting system that offer the basis for effectively analyzing requirements collected in distributed environments. The proposed system automatically categorizes collected requirements sentences into selected subject fields by measuring their similarity using a similarity measurement technique. Therefore, it reduces the difficulties in the initial stage of requirements analysis and it supports rapid and correct requirements analysis. This paper verifies the efficiency of the proposed system in similarity measurement techniques through experiments, and presents a process for requirements specifications elicitation using the embodied system

      • KCI등재

        문장 중요도를 이용한 자동 문서 범주화

        고영중(Youngjoong Ko),박진우(Jinwoo Park),서정연(Jungyun Seo) 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.5·6

        자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나, 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서 요약에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이타를 구축하고 실험하였으며 문장 중요도를 사용하지 않은 시스템 보다 향상된 성능을 얻을 수 있었다. Automatic text categorization is a problem of assigning predefined categories to free text documents. In order to classify text documents, we have to extract good features from them. In previous researches, a text document is commonly represented by the frequency of each feature. But there is a difference between important and unimportant sentences in a text document. It has an effect on the importance of features in a text document. In this paper, we measure the importance of sentences in a text document using text summarizing techniques. A text document is represented by features with different weights according to the importance of each sentence. To verify the new method, we constructed Korean news group data set and experiment our method using it. We found that our new method gave a significant improvement over a basis system for our data sets.

      • KCI등재

        오류 데이타에 강한 자질 투영법 기반의 문서 범주화 기법

        고영중(Youngjoong Ko),서정연(Jungyun Seo) 한국정보과학회 2004 정보과학회논문지 : 소프트웨어 및 응용 Vol.31 No.4

        본 논문은 자질 투영법을 사용한 새로운 문서 분류기를 제안한다. 제안된 문서 분류기는 학습문서를 각 자질로의 투영으로써 표현한다. 문서를 위한 분류 작업은 투영된 각 자질로부터의 투표(voting) 에 기인한다. 실험을 통해서 본 제안된 문서 분류기는 단순한 구조에도 불구하고 높은 성능을 보이고 있으며, 특히 기존의 문서 범주화 기법에서 높은 성능을 보여왔던 최근린법(k-NN)과 지지벡터기계(SVM)와 비교했을 때 빠른 수행 속도와 오류 데이타가 많을 환경에서 높은 성능을 보인다는 장점이 있다. 또한 제안된 문서 분류기의 알고리즘이 매우 단순하기 때문에 분류기의 구현과 학습 과정이 쉽게 수행될 수 있다. 이러한 이유로 제안된 문서 분류기는 빠른 수행 속도와 견고성(robustness), 그리고 높은 성능을 요구하는 문서 범주화 응용 영역에 유용하게 사용될 수 있을 것이다. This paper presents a new text classifier based on a feature projection technique. In feature projections, training documents are represented as the projections on each feature. A classification process is based on individual feature projections. The final classification is determined by the sum from the individual classification of each feature. In our experiments, the proposed classifier showed high performance. Especially, it have fast execution speed and robustness with noisy data in comparison with k-NN and SVM, which are among the state-of-art text classifiers. Since the algorithm of the proposed classifier is very simple, its implementation and training process can be done very simply. Therefore, it can be a useful classifier in text classification tasks which need fast execution speed, robustness, and high performance.

      • SCIESCOPUS

        Improving Question Retrieval in cQA Services Using a Dependency Parser

        BAE, Kyoungman,KO, Youngjoong INSTITUTE OF ELECTRONICS, INFORMATION & 2017 IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E SE Vol.100e.d No.4

        <P>The translation based language model (TRLM) is state-of-the-art method to solve the lexical gap problem of the question retrieval in the community-based question answering (cQA). Some researchers tried to find methods for solving the lexical gap and improving the TRLM. In this paper, we propose a new dependency based model (DM) for the question retrieval. We explore how to utilize the results of a dependency parser for cQA. Dependency bigrams are extracted from the dependency parser and the language model is transformed using the dependency bigrams as bigram features. As a result, we obtain the significant improved performances when TRLM and DM approaches are effectively combined.</P>

      • SCIE

        Spoken Language Understanding with a Novel Simultaneous Recognition Technique for Intelligent Personal Assistant Software

        Lee, Changsu,Ko, Youngjoong World Scientific Publishing Company 2018 INTERNATIONAL JOURNAL ON ARTIFICIAL INTELLIGENCE T Vol.27 No.3

        <P>Intelligent personal assistant software, such as Apple’s Siri and Samsung’s S-Voice, is being widely used these days. One of the core modules of this kind of software is the spoken language understanding (SLU) module used to predict the user’s intention for determining the system actions. The SLU module usually consists of several connected recognition components on a pipeline framework, whereas the proposed SLU module is developed by a novel technique that can simultaneously recognize four recognition components, namely named entity, speech-act, target, and operation using conditional random fields. In the experiments, the proposed simultaneous recognition technique achieved a relative improvement as high as approximately 2.2% and a faster speed of approximately 15% compared to a pipeline framework. A significance test showed that this improvement was statistically significant because the p-value was smaller than 0.01.</P>

      • Automatically Extracting Parallel Sentences from Wikipedia Using Sequential Matching of Language Resources

        CHEON, Juryong,KO, Youngjoong 'Institute of Electronics, Information and Communi 2017 IEICE transactions on information and systems Vol.100e.d No.2

        <P>In this paper, we propose a method to find similar sentences based on language resources for building a parallel corpus between English and Korean from Wikipedia. We use a Wiki-dictionary consisted of document titles from theWikipedia and bilingual example sentence pairs from Web dictionary instead of traditional machine readable dictionary. In this way, we perform similarity calculation between sentences using sequential matching of the language resources, and evaluate the extracted parallel sentences. In the experiments, the proposed parallel sentences extraction method finally shows 65.4% of F1-score.</P>

      • How to Combine Translation Probabilities and Question Expansion for Question Classification in cQA Services

        BAE, Kyoungman,KO, Youngjoong 'Institute of Electronics, Information and Communi 2016 IEICE transactions on information and systems Vol.99e.d No.4

        <P>This paper claims to use a new question expansion method for question classification in cQA services. The input questions consist of only a question whereas training data do a pair of question and answer. Thus they cannot provide enough information for good classification in many cases. Since the answer is strongly associated with the input questions, we try to create a pseudo answer to expand each input question. Translation probabilities between questions and answers and a pseudo relevant feedback technique are used to generate the pseudo answer. As a result, we obtain the significant improved performances when two approaches are effectively combined.</P>

      • Speech-Act Classification Using a Convolutional Neural Network Based on POS Tag and Dependency-Relation Bigram Embedding

        YOO, Donghyun,KO, Youngjoong,SEO, Jungyun 'Institute of Electronics, Information and Communi 2017 IEICE transactions on information and systems Vol.100e.d No.12

        <P>In this paper, we propose a deep learning based model for classifying speech-acts using a convolutional neural network (CNN). The model uses some bigram features including parts-of-speech (POS) tags and dependency-relation bigrams, which represent syntactic structural information in utterances. Previous classification approaches using CNN have commonly exploited word embeddings using morpheme unigrams. However, the proposed model first extracts two different bigram features that well reflect the syntactic structure of utterances and then represents them as a vector representation using a word embedding technique. As a result, the proposed model using bigram embeddings achieves an accuracy of 89.05%. Furthermore, the accuracy of this model is relatively 2.8% higher than that of competitive models in previous studies.</P>

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼