RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재
      • KCI등재

        베타 회귀분석과 R 텍스트 마이닝을 이용한 특허 마이닝

        전성해(Sunghae Jun) 한국지능시스템학회 2018 한국지능시스템학회논문지 Vol.28 No.4

        개발된 기술에 대한 특허는 숫자, 문자, 그림 등으로 이루어진 문서형식이다. 특허 마이닝은 대규모 특허문서 데이터로부터 기술과 관련된 다양한 지식을 추출하는 도구와 방법이다. 문서는 대부분 텍스트로 구성되어 있기 때문에 특허 마이닝에서는 텍스트 데이터를 처리하고 분석할 수 있는 텍스트 마이닝이 필요하다. 텍스트 마이닝을 지원하는 프로그래밍 언어로 본 논문에서는 R을 사용한다. R은 텍스트 마이닝 뿐만 아니라 대부분의 통계분석과 기계학습 알고리즘을 지원한다. 제안 방법에서 사용되는 베타 회귀분석도 R의 통계 패키지를 이용하여 수행된다. 반응변수가 0에서 1사이의 값을 갖는 베타 회귀분석의 특성을 이용하여 본 연구에서는 특허문서로부터 추출된 키워드 사이의 기술 연관성을 찾는 방법을 제안한다. 제안모형의 성능평가를 위하여 실제 특허문서를 이용한 실험을 수행한다. Patents for developed technologies are in the form of documents consisting of numbers, texts and pictures. Patent mining means tools and methods for extracting various knowledge related to technology from large-scale patent document data. Since documents are mostly text, patent mining requires text mining to process and analyze text data. Also, R is used as a programming language that supports text mining. R supports almost all statistical analysis and machine learning algorithms as well as text mining. The beta regression analysis used in the proposed method is also performed using the R statistical package. In this paper, we propose a method to find the technological relation between patent keywords extracted from patent documents by using the characteristics of beta regression analysis with response variables between 0 and 1. Experiments using real patent documents are performed to evaluate the performance of the proposed model.

      • KCI등재

        통계적 텍스트 마이닝을 이용한 빅 데이터 전처리

        전성해(Sunghae Jun) 한국지능시스템학회 2015 한국지능시스템학회논문지 Vol.25 No.5

        빅 데이터는 여러 분야에서 다양하게 사용되고 있다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 서로간의 접근방법에 대한 차이는 있겠지만 빅 데이터의 분석을 통한 활용 측면에서는 공통적인 부분을 갖는다. 따라서 대부분의 분야에서 빅 데이터에 대한 의미 있는 분석과 활용은 필요하게 된다. 통계학과 기계학습은 빅 데이터의 분석을 위한 다양한 방법론을 제공한다. 본 논문에서는 빅 데이터분석 과정에 대하여 알아보고 수집된 빅데이터의 원천에서부터 분석을 거쳐 최종적으로 분석결과를 활용하는 전체 과정을 위한 효율적인 빅 데이터 분석방법에 대하여 연구한다. 특히, 빅 데이터의 특성을 갖는 여러 데이터 중 하나인 특허문서 데이터에 대하여 빅데이터분석을 적용하여 효과적인 특허분석을 수행하고 이 결과를 연구개발 기획에 적용하는 방법론에 대하여 제안한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허데이터베이스로부터 실제 기업의 전체 출원, 등록 특허문서를 수집, 분석하고 연구개발 업무에 활용하는 전 과정에 대한 사례연구를 수행하였다. Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most areas. Statistics and machine learning provide various methods for big data analysis. In this paper, we study a process for big data analysis, and propose an efficient methodology of entire process from collecting big data to implying the result of big data analysis. In addition, patent documents have the characteristics of big data, we propose an approach to apply big data analysis to patent data, and imply the result of patent big data to build R&D strategy. To illustrate how to use our proposed methodology for real problem, we perform a case study using applied and registered patent documents retrieved from the patent databases in the world.

      • KCI등재

        기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법

        전성해(Sunghae Jun) 한국지능시스템학회 2011 한국지능시스템학회논문지 Vol.21 No.2

        기계학습에서 모형의 정확도와 컴퓨팅시간은 중요하게 다루어지는 부분이다. 일반적으로 모형을 구축하는 데 사용되는 컴퓨팅시간은 분석에 사용되는 데이터의 크기에 비례하여 커진다. 따라서 컴퓨팅시간 단축을 위하여 분석에 사용되는 데이터의 크기를 줄이는 샘플링전략이 필요하다. 하지만 학습데이터의 크기가 작게 되면 구축된 모형의 정확도도 함께 떨어지게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다. 군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다. 제안방법의 성능을 평가하기 위하여 객관적인 기계학습 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다. Accuracy and computing time are considerable issues in machine learning. In general, the computing time for data analysis is increased in proportion to the size of given data. So, we need a sampling approach to reduce the size of training data. But, the accuracy of constructed model is decreased by going down the data size simultaneously. To solve this problem, we propose a new statistical sampling method having similar performance to the total data. We suggest a rule to select optimal sampling techniques according to given data structure. This paper shows a sampling method for reducing computing time with keeping the most of accuracy using cluster sampling, stratified sampling, and systematic sampling. We verify improved performance of proposed method by accuracy and computing time between sample data and total data using objective machine learning data sets.

      • KCI등재

        베이지안 이산모형을 이용한 기술예측

        전성해(Sunghae Jun) 한국지능시스템학회 2017 한국지능시스템학회논문지 Vol.27 No.2

        기술예측은 과거부터 현재까지의 기술개발 결과를 수집, 분석하여 특정 기술의 미래 추세 및 상태를 예측하는 것이다. 일반적으로 특허는 현재까지의 기술개발 결과를 가장 잘 가지고 있다. 왜냐하면 특허에 포함된 세부 기술은 일정기간 동안 배타적 권리가 법에 의해 보장되기 때문이다. 따라서 특허 데이터의 분석을 이용한 기술예측의 다양한 연구가 진행되었다. 특허문서의 분석을 위하여 널리 사용되는 특허 키워드 데이터는 주로 기술키워드에 대한 빈도 값으로 이루어진다. 기존의 많은 특허분석에서는 회귀분석, 박스-젠킨스 모형 등 연속형 데이터분석 기법이 적용하였다. 하지만 빈도 데이터는 이산형 데이터이기 때문에 이산형 데이터분석 방법을 사용해야 한다. 본 연구에서는 이와 같은 문제점을 해결하기 위하여 베이지안 포아송 이산모형을 이용한 특허분석 방법을 제안한다. 연구방법의 성능평가를 위하여 지금까지 출원, 등록된 애플의 전체특허를 분석하여 향후 기술을 예측하는 사례분석을 수행한다. Technology forecasting is predict future trend and state of technology by analyzing the results so far of developing technology. In general, a patent has novel information about the result of developed technology, because the exclusive right of technology included in patent is protected for a time period by patent law. So many studies on the technology forecasting using patent data analysis has been performed. The patent keyword data widely used in patent analysis consist of occurred frequency of the keyword. In most previous researches, the continuous data analyses such as regression or Box-Jenkins Models were applied to the patent keyword data. But, we have to apply the analytical methods of discrete data for patent keyword analysis because the keyword data is discrete. To solve this problem, we propose a patent analysis methodology using Bayesian Poisson discrete model. To verify the performance of our research, we carry out a case study by analyzing the patent documents applied by Apple until now.

      • KCI등재

        베이지안 텍스트 마이닝과 시각화를 이용한 특허 빅데이터 분석

        전성해(Sunghae Jun) 한국지능시스템학회 2020 한국지능시스템학회논문지 Vol.30 No.2

        데이터의 크기와 다양화는 빅데이터의 대표적인 특성이다. 관계형 데이터베이스에 저장된 대용량 데이터에 비하여 빅데이터는 문자, 숫자, 그림 등 다양한 데이터 원천이 비정형 형태로 저장되어 있다. 특허문서도 매우 방대한 크기를 가지며 하나의 특허문서는 발명자의 이름, 출원 날짜, 발명의 명칭, 기술 요약, 청구항, 도면 등 다양한 형태의 데이터로 이루어진다. 발명자에게 일정기간 동안 등록된 특허기술에 대한 배타적인 권리를 인정하는 특허제도의 특성으로 인하여 개발된 기술에 대한 많은 정보는 특허문서에 포함되어 있다. 따라서 특허 빅데이터 분석은 기술을 이해하기 위하여 반드시 필요한 과정이다. 본 연구에서는 특허 빅데이터의 분석을 위한 통합적 분석 방법을 제안한다. 제안 방법은 텍스트 마이닝과 베이지안 추론을 결합하여 특허 빅데이터의 전처리 과정부터 분석 및 활용까지의 전 과정에 대한 방법을 연구한다. 베이지안 시각화 및 베이지안 회귀분석을 결합하여 새로운 특허 빅데이터를 분석한다. 제안 방법의 성능평가를 위하여 본 연구에서는 인공지능 기술 관련 특허문서를 수집하고 분석에 이용한다. The volume and variety are typical characteristics of big data. Compared to the large amount of data stored in relational databases, big data is stored by various data types such as texts, numbers, and pictures with unstructured data form. Patent document data also has a very large size and a patent document consists of various types of data such as the inventor"s name, application date, name of the invention, technical summary, claims, and drawings. Due to the nature of the patent system which grants the inventors exclusive rights to patent technology registered for a certain period of time, much information about the developed technology is contained in the patent document. Therefore, patent big data analysis is an essential process for understanding technology. This study proposes an integrated analysis method for analyzing patent big data. The proposed method combines text mining and Bayesian inference to study the whole process from preprocessing to analysis and utilization of patent big data. We analyze the patent big data by newly combining Bayesian visualization and Bayesian regression. To show the performance evaluation of the proposed method, we collects patent documents related to artificial intelligence technology and uses them for analysis.

      • KCI등재

        희소한 텍스트 데이터 분석을 위한 로버스트 일반화 선형모형

        전성해(Sunghae Jun) 한국지능시스템학회 2020 한국지능시스템학회논문지 Vol.30 No.5

        통계학과 머신러닝에서 제공하는 다양한 분석기법은 정형화된 데이터 구조를 요구하기 때문에 빅데이터 분석에서 다양한 형태의 빅데이터를 전처리하여 정형화된 구조로 바꾸는 작업이 필요하게 된다. 특히 문서 빅데이터의 전처리 결과는 행과 열이 각각 문서와 단어로 이루어진 문서-단어 행렬이다. 행렬의 각 원소는 문서에 나타난 단어의 빈도수를 나타낸다. 일반적으로 문서-단어 행렬은 원소들 중 상당수가 0의 값을 갖는 희소한 데이터 구조를 갖는다. 대표적인 통계분석 기법인 일반화 선형모형은 희소한 문서-단어 행렬 데이터의 분석에 한계를 나타낸다. 이와 같은 문제를 해결하기 위하여 본 논문에서는 로버스트 일반화 선형모형을 이용한 분석 방법을 제안한다. 실제 특허문서 데이터를 수집하고 분석하여 제안 방법의 성능평가를 수행한다. Since various analysis methods provided by statistics and machine learning require a structured data type, we have to preprocess big data and change it into a structured data. In particular, the preprocessing result of document big data is a document-word matrix in which rows and columns are composed of documents and words, respectively. Each element of the matrix is the frequency of a word in document. In general, a document-word matrix has a sparse data structure in which many of the elements have a value of zero. The generalized linear model, which is a representative statistical analysis method, presents limitations in the analysis of sparse document-word matrix. To solve such a problem, this paper proposes an analysis method using robust generalized linear model. Practical patent document data is collected and analyzed to evaluate the performance of the proposed method.

      • KCI등재

        자기조직화 지도와 매트릭스분석을 이용한 특허분석시스템의 공백기술 예측

        전성해(Sunghae Jun),박상성(Sang-Sung Park),신영근(Young-Geun Shin),장동식(Dong-Sik Jang),정호석(HoSeok Chung) 한국콘텐츠학회 2010 한국콘텐츠학회논문지 Vol.10 No.2

        특허분석은 전 세계적으로 축적된 특허 데이터베이스로부터 기업의 연구개발 전략에 필요한 지식을 추출하는 것이다. 현재까지 특허출원 결과를 분석하여 해당기술에 대한 기술동향과 전개과정을 파악하여 향후 개발될 기술에 대한 방향정립을 위하여 특허분석은 필요한 결과를 제공한다. 본 논문에서는 특허분석과 관련된 방법 및 시스템에 대한 기술 분류를 수행하고 관련된 국내특허와 미국특허, 그리고 IEEE 논문을 조사하고 분석한다. 특허분석시스템은 기술 분야의 특성상 특허출원뿐만 아니라 연구결과의 논문발표도 활발히 이루어지고 있다. 본 연구에서 선정된 검색어를 통하여 최종적으로 검색된 결과를 이용하여 기술 분류에 따른 분석을 실시한다. 유효한 전체 특허와 논문을 대상으로 특허분석시스템에 필요한 공백기술을 찾아내기 위하여 매트릭스분석을 수행한다. 현재까지 등록된 특허분석시스템에 대한 기술발전 동향을 파악하고 앞으로 필요한 특허분석시스템 관련 기술발전 방향도 제시한다. 통계적 검정과 자기조직화 지도를 이용하여 유효 특허와 논문을 정량적으로 분석하여 국내특허, 미국특허, 그리고 논문 내에서 상대적으로 개발이 취약한 기술을 찾아내고 이에 대한 개발의 필요성도 함께 제시한다. Patent analysis is the extracting knowledge which is needed for the company's research and development strategy through accumulated worldwide patent database. In order to set the future direction of corresponding technology which is scheduled to be developed, the technology trends and deployment processes are identified by analyzing results of present patent applications. The patent analysis provides the required results for analyzing present patent applications. In this paper, we will carry out technology classification for related patent analysis methods and systems. Moreover we will investigate and analyze related domestic patents, U.S. patents and IEEE papers. Due to the characteristics of technology sector, not only patents are applied but also research papers are released actively about patent analysis system. We will analyze patents according to the technology classification by using the final searching results which come from the selected search words in this study. To find necessary niche technology which is needed for patent analysis system, matrix analysis was performed to all of valid patents and papers. Identifying the technology development trends of registered patent analysis systems, and presenting the future direction of technology development which is related to patent analysis system. To figure out the technology which is developed relatively weak based on domestic patents, U.S patent and research papers by analyzing the valid patents and papers with statistical test and self-organizing map quantitatively. Then, presenting the necessity of this technology development.

      • KCI등재

        심볼릭 인공지능을 위한 R 심볼릭 데이터분석

        전성해(Sunghae Jun) 한국지능시스템학회 2017 한국지능시스템학회논문지 Vol.27 No.5

        컴퓨터와 인간은 분명 다르지만 기본적으로 데이터를 저장하고 처리하는 개념적 측면에서는 서로 유사한 구조를 갖는다. 하지만 수집된 전체 데이터를 처리하고 분석하는 컴퓨터와는 달리 인간은 요약된 패턴 단위로 데이터를 처리한다. 즉 인간은 전체 데이터를 다루기보다는 요약된 정보를 통해 최적의 의사결정을 한다. 전체 데이터보다 요약된 정보만을 관리하면 시간과 비용 면에서 더 효율적인 시스템을 구축할 수 있다. 특히 빅데이터 환경에서 인공지능의 학습을 위한 대용량 데이터의 처리 및 분석을 위하여 요약된 정보에 기반 한 데이터학습에 대한 필요성이 제기되고 있다. 본 연구에서는 이와 같이 요약된 정보에 기반 한 심볼릭 인공지능 시스템의 효율적인 구축을 위하여 통계학의 심볼릭 데이터분석에 대하여 연구한다. 특히 대표적인 데이터언어인 R에서 제공하는 심볼릭 데이터분석 함수를 이용한 심볼릭 인공지능에 대한 방법을 소개한다. 제안방법의 성능평가를 위하여 객관적인 기계학습 데이터 사례를 이용하였다. Computers and humans are different, but basically they have a similar structure in conceptual aspects of data storing and processing. However, unlike computers that process and analyze the entire data collected, humans process the data in a summarized pattern. In other words, humans make the best decisions through summarized information rather than whole data. By managing only summarized information, you can build a more efficient system in terms of time and cost. In particular, there is a need for learning from data based on summarized information for processing and analyzing large amounts of data for artificial intelligence learning in a big data environment. In this paper, symbolic data analysis of statistics is studied for efficient construction of symbolic artificial intelligence system based on the information summarized in this way. We introduce a method for symbolic artificial intelligence using symbolic data analysis functions provided by R data language. In order to evaluate the performance of proposed method, objective machine learning data were used.

      • 통계적 학습이론을 이용한 시장세분화모형

        전성해(Sunghae Jun) 한국지능시스템학회 2010 한국지능시스템학회 학술발표 논문집 Vol.20 No.2

        시장세분화는 마케팅공학에서 중요하게 다루어지는 시장분석방법이다. 일반적으로 마케팅공학 분야에서 시장세분화는 선형계획법과 같은 최적화기법에 의해 문제를 해결한다. 최적화기법에 의해 문제를 해결하기 위해서는 세분화문제를 위한 제약식과 최대화 또는 최소화를 위한 목적함수를 정의하여야 한다. 항상 제약조건과 목적함수가 명확하게 정의되지는 않는다. 본 논문에서는 시장세분화를 위하여 최적화기법 대신에 통계적학습이론을 이용하여 마케팅공학의 세분화문제를 해결한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼