RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Enhancing a Korean Part-of-Speech Tagger Based on a Maximum Entropy Model

        나동열,조민희,김윤식 한국자료분석학회 2007 Journal of the Korean Data Analysis Society Vol.9 No.4

        The most core task for Korean text processing is to recognize the lexical morphemes in sentences and to determine their part of speeches. This task is called the part of speech tagging. We present several effective schemes to enhance Korean part-of-speech tagging systems that are based on a Maximum Entropy model. We employ two levels of tags, the inner and outer tags. A probability of a morpheme sequence is computed to augment the probability of the Maximum Entropy model. Special feature functions are employed to exploit co-occurrence of multiple lexical items, which seems effective for lexical ambiguity resolution. Experimental results demonstrate usefulness of these schemes.

      • 한국어 문서분류 테스트컬렉션 개발

        나동열(Dong-Yul Ra),김윤식(Yunsik Kim),신현주(Hyun-Joo Shin),이규희(Kyu-Hee Lee),김태규(Tae-Kyu Kim),강현규(Hyun-Kyu Kang),최호섭(Ho-Seop Choe),윤화묵(Hwa-Mook Yoon) 한국콘텐츠학회 2007 한국콘텐츠학회 종합학술대회 논문집 Vol.5 No.2_1

        문서분류 시스템은 수많은 문서들이 쏟아져 나오는 최근의 인터넷 사회에서 매우 중요한 도구이다. 이러한 이유로 문서분류 기술에 대하여 많은 연구가 있어 왔다. 문서 분류 시스템의 개발을 위해서는 보통 교사학습 기법이 이용되는데 이를 위해서 필수적인 것이 테스트컬렉션이다. 영어의 경우에는 여러 가지의 문서분류 테스트 컬렉션이 있어 이 분야의 기술발전에 많은 도움을 주고 있다. 그러나 한국어의 경우에는 공식적으로 공표된 문서분류 테스트컬렉션이 존재하지 않고 있다. 이려한 상황을 개선하기 위해서 우리는 문서분류 테스트컬렉션의 구축을 진행하고 있다. 본 논문에서는 이에 대한 접근 방법 및 구축 상황을 기술하고자 한다. Document categorization system is important in the intemet age in which huge number of documents are created and need to be dealt with. By this reason a lot of research has been done in this field. For the development of the system, a supervised learning method is widely used. This approach needs a test collection as a prerequisite. For the case of English, several test collections are available which provide a lot of help for developing systems and doing research. But no public test collections have been reported and are not available in the case of Korean. To improve the situation for Korean we are undergoing the construction of a Korean test collection. In this paper the approaches being used and current stage of the collection will be described.

      • KCI등재

        웹 문서 내 출현 어휘의 범주 분류에 의한 검색 효율성 연구

        김윤식,나동열 한국자료분석학회 2005 Journal of the Korean Data Analysis Society Vol.7 No.5

        The conventional information retrieval methods are based upon either measuring similarity by string comparison of search keys or searching subject categories formed with classifying documents to subject categories. These retrieval methods have the advantage of being simple to use, fast in retrieval, and able to retrieve large amount of information. However, there arise problems such as ambiguity of search keys and retrieval of large number of garbage documents.This paper proposes a method of re-evaluating retrieval effectiveness by assigning weights to subject categories in which words occur by making use of semantic analysis of those words used for search keys. It is necessary to decide the subject category of documents by exploiting semantic class features of the words matching the search keys with the help of their lexical information in the dictionary. It is suggested to utilize co-occurring words and extend the key words by semantic interpretation of simple search keys. 기존 일반적 정보 검색은 검색키에 의한 문자열 비교 검색에 의한 유사도 측정 방법과 문서의 의미 범주별 분류에 의한 주제별 검색이 주를 이루었다. 이러한 검색 방법은 사용법이 간편하고 검색 속도가 빠르며 많은 정보가 검색되는 장점이 있으나 검색키의 중의성 문제, 쓰레기 문서의 대량 검출 등 많은 문제점이 발생한다. 본 연구에서는 검색키로 사용되는 어휘의 의미 분석을 이용하여 어휘가 출현하는 주제 분야별 가중치를 부여하여 검색 효율성 제고 방안을 제시하였다. 검색키와 일치하는 문서 내에 포함된 어휘들을 사전 정보를 이용하여 의미 분류 속성으로 문서의 주제별 범주를 판단하기 위해 단순 검색키의 의미 해석에 의한 키 확장, 출현 단어간 공기관계 등을 활용한다.

      • KCI등재

        BERT-Fused Transformer 모델에 기반한한국어 형태소 분석 기법

        이창재,나동열 한국정보처리학회 2022 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.11 No.4

        Morphemes are most primitive units in a language that lose their original meaning when segmented into smaller parts. In Korean,a sentence is a sequence of eojeols (words) separated by spaces. Each eojeol comprises one or more morphemes. Korean morphologicalanalysis (KMA) is to divide eojeols in a given Korean sentence into morpheme units. It also includes assigning appropriatepart-of-speech(POS) tags to the resulting morphemes. KMA is one of the most important tasks in Korean natural language processing(NLP). Improving the performance of KMA is closely related to increasing performance of Korean NLP tasks. Recent research on KMAhas begun to adopt the approach of machine translation (MT) models. MT is to convert a sequence (sentence) of units of one domaininto a sequence (sentence) of units of another domain. Neural machine translation (NMT) stands for the approaches of MT that exploitneural network models. From a perspective of MT, KMA is to transform an input sequence of units belonging to the eojeol domain intoa sequence of units in the morpheme domain. In this paper, we propose a deep learning model for KMA. The backbone of our modelis based on the BERT-fused model which was shown to achieve high performance on NMT. The BERT-fused model utilizes Transformer,a representative model employed by NMT, and BERT which is a language representation model that has enabled a significant advancein NLP. The experimental results show that our model achieves 98.24 F1-Score. 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

      • KCI등재

        전자상점에서 상품 검색을 위한 상품 정보 DB 구축 연구

        김윤식,나동열,엄정국 한국자료분석학회 2005 Journal of the Korean Data Analysis Society Vol.7 No.1

        As the volume of real-time information exchange through the Internet increases, an Internet chatting language has emerged as a new research field. This dissertation is research about goods information DB design that become query relationship which present to search goods of most suitable that purchaser wants from several electron shop in Internet.When purchaser does not know correct trade name, in case present query of natural language type that analogize by knowledge connected with characteristic of goods, wish to analyze this query and draw key that search goods.This dissertation is research via Korean goods search. Therefore, wish to analyze characteristic on Korean's trade name or query's expression than simple string comparison search of Korean trade name.For this purpose, Wish to design efficient Goods information DB's schema to draw trade name and attribute in query that purchaser presents from Goods information DB. 본 연구는 인터넷상의 여러 전자상점을 대상으로 구매자가 원하는 최적의 상품을 검색하기 위해 구매자가 제시한 질의문 분석을 위해 기반이 되는 상품 정보 DB 설계에 관한 연구이다.구매자가 정확한 상품명을 알지 못한 상태에서 상품의 특징과 관련지식으로 유추한 자연어 형태의 질의문을 제시할 경우, 이 질의문을 분석하여 상품검색 키를 추출하고자 한다. 특히 이 연구에서는 한국어 상품 검색을 기준으로 한 연구이므로 한국어 상품명의 단순한 문자열 비교검색보다는 한국어의 상품 지칭이나 질의어 표현 특징을 분석하고자 한다. 이 분석을 위해 사전에 작성된 상품정보 DB를 기반으로 구매자가 제시한 질의문에서 상품명과 속성값을 추출하기 위해 효율적으로 사용될 상품정보DB의 스키마를 설계하고자 한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼