RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 = Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base

      한글로보기

      https://www.riss.kr/link?id=A106110477

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Development of technologies in artificial intelligence has been rapidly increasing with the Fourth Industrial Revolution, and researches related to AI have been actively conducted in a variety of fields such as autonomous vehicles, natural language processing, and robotics. These researches have been focused on solving cognitive problems such as learning and problem solving related to human intelligence from the 1950s. The field of artificial intelligence has achieved more technological advance than ever, due to recent interest in technology and research on various algorithms. The knowledge-based system is a sub-domain of artificial intelligence, and it aims to enable artificial intelligence agents to make decisions by using machine-readable and processible knowledge constructed from complex and informal human knowledge and rules in various fields. A knowledge base is used to optimize information collection, organization, and retrieval, and recently it is used with statistical artificial intelligence such as machine learning. Recently, the purpose of the knowledge base is to express, publish, and share knowledge on the web by describing and connecting web resources such as pages and data. These knowledge bases are used for intelligent processing in various fields of artificial intelligence such as question answering system of the smart speaker.
      However, building a useful knowledge base is a time-consuming task and still requires a lot of effort of the experts. In recent years, many kinds of research and technologies of knowledge based artificial intelligence use DBpedia that is one of the biggest knowledge base aiming to extract structured content from the various information of Wikipedia. DBpedia contains various information extracted from Wikipedia such as a title, categories, and links, but the most useful knowledge is from infobox of Wikipedia that presents a summary of some unifying aspect created by users. These knowledge are created by the mapping rule between infobox structures and DBpedia ontology schema defined in DBpedia Extraction Framework. In this way, DBpedia can expect high reliability in terms of accuracy of knowledge by using the method of generating knowledge from semi-structured infobox data created by users. However, since only about 50% of all wiki pages contain infobox in Korean Wikipedia, DBpedia has limitations in term of knowledge scalability. This paper proposes a method to extract knowledge from text documents according to the ontology schema using machine learning. In order to demonstrate the appropriateness of this method, we explain a knowledge extraction model according to the DBpedia ontology schema by learning Wikipedia infoboxes. Our knowledge extraction model consists of three steps, document classification as ontology classes, proper sentence classification to extract triples, and value selection and transformation into RDF triple structure. The structure of Wikipedia infobox are defined as infobox templates that provide standardized information across related articles, and DBpedia ontology schema can be mapped these infobox templates. Based on these mapping relations, we classify the input document according to infobox categories which means ontology classes. After determining the classification of the input document, we classify the appropriate sentence according to attributes belonging to the classification. Finally, we extract knowledge from sentences that are classified as appropriate, and we convert knowledge into a form of triples. In order to train models, we generated training data set from Wikipedia dump using a method to add BIO tags to sentences, so we trained about 200 classes and about 2,500 relations for extracting knowledge. Furthermore, we evaluated comparative experiments of CRF and Bi-LSTM-CRF for the knowledge extraction process. Through this proposed process, it is possible to utilize structured knowledge by extracting knowledge according to the ontology schema fro...
      번역하기

      Development of technologies in artificial intelligence has been rapidly increasing with the Fourth Industrial Revolution, and researches related to AI have been actively conducted in a variety of fields such as autonomous vehicles, natural language pr...

      Development of technologies in artificial intelligence has been rapidly increasing with the Fourth Industrial Revolution, and researches related to AI have been actively conducted in a variety of fields such as autonomous vehicles, natural language processing, and robotics. These researches have been focused on solving cognitive problems such as learning and problem solving related to human intelligence from the 1950s. The field of artificial intelligence has achieved more technological advance than ever, due to recent interest in technology and research on various algorithms. The knowledge-based system is a sub-domain of artificial intelligence, and it aims to enable artificial intelligence agents to make decisions by using machine-readable and processible knowledge constructed from complex and informal human knowledge and rules in various fields. A knowledge base is used to optimize information collection, organization, and retrieval, and recently it is used with statistical artificial intelligence such as machine learning. Recently, the purpose of the knowledge base is to express, publish, and share knowledge on the web by describing and connecting web resources such as pages and data. These knowledge bases are used for intelligent processing in various fields of artificial intelligence such as question answering system of the smart speaker.
      However, building a useful knowledge base is a time-consuming task and still requires a lot of effort of the experts. In recent years, many kinds of research and technologies of knowledge based artificial intelligence use DBpedia that is one of the biggest knowledge base aiming to extract structured content from the various information of Wikipedia. DBpedia contains various information extracted from Wikipedia such as a title, categories, and links, but the most useful knowledge is from infobox of Wikipedia that presents a summary of some unifying aspect created by users. These knowledge are created by the mapping rule between infobox structures and DBpedia ontology schema defined in DBpedia Extraction Framework. In this way, DBpedia can expect high reliability in terms of accuracy of knowledge by using the method of generating knowledge from semi-structured infobox data created by users. However, since only about 50% of all wiki pages contain infobox in Korean Wikipedia, DBpedia has limitations in term of knowledge scalability. This paper proposes a method to extract knowledge from text documents according to the ontology schema using machine learning. In order to demonstrate the appropriateness of this method, we explain a knowledge extraction model according to the DBpedia ontology schema by learning Wikipedia infoboxes. Our knowledge extraction model consists of three steps, document classification as ontology classes, proper sentence classification to extract triples, and value selection and transformation into RDF triple structure. The structure of Wikipedia infobox are defined as infobox templates that provide standardized information across related articles, and DBpedia ontology schema can be mapped these infobox templates. Based on these mapping relations, we classify the input document according to infobox categories which means ontology classes. After determining the classification of the input document, we classify the appropriate sentence according to attributes belonging to the classification. Finally, we extract knowledge from sentences that are classified as appropriate, and we convert knowledge into a form of triples. In order to train models, we generated training data set from Wikipedia dump using a method to add BIO tags to sentences, so we trained about 200 classes and about 2,500 relations for extracting knowledge. Furthermore, we evaluated comparative experiments of CRF and Bi-LSTM-CRF for the knowledge extraction process. Through this proposed process, it is possible to utilize structured knowledge by extracting knowledge according to the ontology schema fro...

      더보기

      국문 초록 (Abstract)

      최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.
      번역하기

      최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의...

      최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

      더보기

      참고문헌 (Reference)

      1 최현승, "지식베이스 확장을 위한멀티소스 비정형 문서에서의 정보 추출 시스템의 개발" 한국지능정보시스템학회 24 (24): 111-136, 2018

      2 정석원, "위키백과로부터 기계학습 기반한 국어 지식베이스 구축" 한국정보과학회 42 (42): 1065-1070, 2015

      3 진승희, "온톨로지 지식 기반 특성치를 활용한Bidirectional LSTM-CRF 모델의시퀀스 태깅 성능 향상에 관한 연구" 한국지능정보시스템학회 24 (24): 253-267, 2018

      4 Suchanek, F. M., "Yago:a core of semantic knowledge" 697-706, 2007

      5 Kaisser, M., "The qualim question answering demo: Supplementing answers with paragraphs drawn from wikipedia" 32-35, 2008

      6 Ramshaw, L. A., "Text Chunking using Transformation-Based Learning" 82-94, 1995

      7 Hearst, M. A., "Support vector machines" 13 (13): 18-28, 1998

      8 Engelmore, R. S., "Review of Progress in Quantitative Nondestructive Evaluation" Springer Science 1987

      9 Chiu, J., "Named Entity Recognition with Bidirectional LSTM-CNNs" 4 (4): 357-370, 2016

      10 Bizer, C., "Linked Data on the Web (LDOW2008)" 2008

      1 최현승, "지식베이스 확장을 위한멀티소스 비정형 문서에서의 정보 추출 시스템의 개발" 한국지능정보시스템학회 24 (24): 111-136, 2018

      2 정석원, "위키백과로부터 기계학습 기반한 국어 지식베이스 구축" 한국정보과학회 42 (42): 1065-1070, 2015

      3 진승희, "온톨로지 지식 기반 특성치를 활용한Bidirectional LSTM-CRF 모델의시퀀스 태깅 성능 향상에 관한 연구" 한국지능정보시스템학회 24 (24): 253-267, 2018

      4 Suchanek, F. M., "Yago:a core of semantic knowledge" 697-706, 2007

      5 Kaisser, M., "The qualim question answering demo: Supplementing answers with paragraphs drawn from wikipedia" 32-35, 2008

      6 Ramshaw, L. A., "Text Chunking using Transformation-Based Learning" 82-94, 1995

      7 Hearst, M. A., "Support vector machines" 13 (13): 18-28, 1998

      8 Engelmore, R. S., "Review of Progress in Quantitative Nondestructive Evaluation" Springer Science 1987

      9 Chiu, J., "Named Entity Recognition with Bidirectional LSTM-CNNs" 4 (4): 357-370, 2016

      10 Bizer, C., "Linked Data on the Web (LDOW2008)" 2008

      11 Higashinaka, R., "Learning to rank definitions to generate quizzes for interactive information presentation" 117-120, 2007

      12 Bergman, M., "Knowledge-based Artificial Intelligence"

      13 Krishna, S, "Introduction to Database and Knowledge-base Systems" World Scientific Publishing 1992

      14 Sun, R, "International Encyclopedia of the Social and Behavioral Sciences" Pergamon/Elsevier 2001

      15 Lange, D., "Extracting structured information from Wikipedia articles to populate infoboxes" 1661-1664, 2010

      16 Viterbi, A. J., "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm" 13 (13): 260-269, 1967

      17 Forsythe, D. E., "Engineering Knowledge: The Construction of Knowledge in Artificial Intelligence" 23 (23): 445-477, 1993

      18 Dai, A. M., "Document Embedding with Paragraph Vectors" 2014

      19 Lehmann, J., "DBpedia – A large-scale, multilingual knowledge base extracted from Wikipedia" 6 (6): 167-195, 2015

      20 Bizer, C., "DBpedia - A Crystallization Point for the Web of Data" 7 (7): 154-165, 2009

      21 Lafferty, J., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data" 282-289, 2001

      22 Ljubešić, N., "Comparing CRF and LSTM performance on the task of morphosyntactic tagging of non-standard varieties of South Slavic languages" 156-163, 2018

      23 Wu, J., "Clinical Named Entity Recognition via Bi-directional LSTM-CRF Model" 31-36, 2017

      24 Huang, Z., "Bidirectional LSTM-CRF models for sequence tagging"

      25 Wu, F., "Autonomously semantifying Wikipedia" 41-50, 2007

      26 Russell, S. J, "Artificial Intelligence : A Modern Approach" Prentice Hall 2009

      27 Hanif Bhuiyan, "An effective approach to generate Wikipedia infobox of movie domain using semi-structured data" 한국인터넷정보학회 18 (18): 49-61, 2017

      28 Kingma, D., "Adam: A method for stochastic optimization" 2015

      29 Berger, A. L., "A maximum entropy approach to natural language processing" 22 (22): 39-71, 1996

      30 Brandão, W. C., "A Self-Supervised Approach for Extraction of Attribute-Value Pairs from Wikipedia Articles" 279-289, 2010

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-03-25 학회명변경 영문명 : 미등록 -> Korea Intelligent Information Systems Society KCI등재
      2015-03-17 학술지명변경 외국어명 : 미등록 -> Journal of Intelligence and Information Systems KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-02-11 학술지명변경 한글명 : 한국지능정보시스템학회 논문지 -> 지능정보연구 KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2004-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2003-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2001-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 1.51 1.51 1.99
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      1.78 1.54 2.674 0.38
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼