RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색

        장중혁,이원석,Chang, Joong-Hyuk,Lee, Won-Suk 한국정보처리학회 2003 정보처리학회논문지D Vol.10 No.3

        기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다. The basic assumption of conventional data mining methodology is that the data set of a knowledge discovery process should be fixed and available before the process can proceed. Consequently, this assumption is valid only when the static knowledge embedded in a specific data set is the target of data mining. In addition, a conventional data mining method requires considerable computing time to produce the result of mining from a large data set. Due to these reasons, it is almost impossible to apply the mining method to a realtime analysis task in a data stream where a new transaction is continuously generated and the up-to-dated result of data mining including the newly generated transaction is needed as quickly as possible. In this paper, a new mining concept, open data mining in a data stream, is proposed for this purpose. In open data mining, whenever each transaction is newly generated, the updated mining result of whole transactions including the newly generated transactions is obtained instantly. In order to implement this mechanism efficiently, it is necessary to incorporate the delayed-insertion of newly identified information in recent transactions as well as the pruning of insignificant information in the mining result of past transactions. The proposed algorithm is analyzed through a series of experiments in order to identify the various characteristics of the proposed algorithm.

      • KCI등재후보

        수사기법으로서의 데이터 마이닝에 대한 법적 고찰

        양종모(Yang Jongmo) 대검찰청 2013 형사법의 신동향 Vol.0 No.40

        현대사회는 엄청난 정보가 생성되고 축적되는 소위 정보화 사회라고 할 수 있다. 모바일 폰 등 획기적인 정보 인프라로 인해 빅데이터가 출현하고, 이러한 빅데이터로부터 가치 있는 정보를 찾아내는 데이터 마이닝 기법도 등장하게 되었다. 이러한 데이터 마이닝기법은 아주 다양하게 쓰이지만 수사에 있어서도 그 유용성이 크다. 국내에서는 아직 이러한 데이터 마이닝을 수사에 활용한 실례를 찾아보기 어렵지만 조만간 수사에 데이터 마이닝 기법을 도입할 것으로 보고 그에 대한 법적 규제를 논하여 보았다. 데이터 마이닝은 새로운 형태의 강제처분이다. 그 과정에서 사생활 영역 침해가 당연히 수반되기 때문인데, 기존의 압수 ‧ 수색과 유사한 측면이 있지만 기존의 강제처분에 대한 규제로는 도저히 해결할 수 없는 특성도 가지고 있다. 이를 규제할 수 있는 새로운 방안과 그에 기초한 규정의 신설이 필요하겠지만, 현행 법제를 전제로 그 법적 규제에 대하여 검토하였다. 사생활 영역 침해의 심각성 때문에 데이터 마이닝이나 그 전제가 되는 정보의 수집에 영장주의가 적용되어야 하고, 개인의 동의가 없거나 법원의 영장을 발부받지 않고 행하는 데이터 마이닝은 위법하다고 볼 여지가 없지 않지만, 데이터 마이닝 자체는 영장주의에 적합하지 않고, 그 필요성에 비추어 그것을 규제할 수 있는 새로운 규정의 신설 이전이라도 수사 활동의 일환으로 허용되어야 하고, 그 결과를 이용한 수사도 적법하다고 할 것이다. 다만 데이터 마이닝의 결과는 신뢰도 측면에서 문제가 있어 그 결과를 직접 증거로 쓰기는 어렵다고 할 것이다. Data mining technology allows large volumes of data to be exploited for discovering previously unknown, possibly useful information and knowledge. This is due to the improvement in the database technology which has provided large data and our high dependence on internet which results in mass data production. More specifically, data mining is the application of database technology and techniques-such as statistical analysis and modeling-to uncover hidden patterns and subtle relationships in data and to infer rules that enable the prediction of future results. Data mining application plays an important role in various fields. Even the government has been using data mining techniques for various purposes, from attempting to improve service to trying to detect terrorist patterns and activities. Indeed, several departments and agencies are using or planning to use data mining. Efforts to detect criminal activities and patterns are spread out somewhat evenly across agencies. Since 9/11, The U.S. government agency have been eager to experiment with data mining process as a way of nabbing criminals. However, the privacy of personally sensitive information is not respected generally in the process, which creates some legal problems. People have worried about improper data use in data mining process, especially arbitrary invasions of personal privacy by government officials. In this study, the emerging legal issues of data mining are explored and the admissibility of evidence obtained by data mining is presented. It considers the various arguments for privacy concerns relating data mining. If data mining performed without a proper search warrant, the evidence obtained in the process is illegal and may not be used in court? It is not always true. Under certain circumstances, such evidence is admissible in court. Data mining is new type of compulsory execution and in the permissible scope of warrantless search under various circumstances. The existing law governing the warrant process is not suitable for data mining process. So this article also urges legislatures to update statutory rule that govern the warrant process in response to the new challenge of data mining and argues that data mining will trigger the need for a new criminal procedure to regulate its process in criminal investigation.

      • KCI등재

        데이터마이닝 면책 입법 방향에 대한 의문

        홍승기 한국경영법률학회 2022 經營法律 Vol.32 No.4

        The Korean Government is planning to allow data mining for commercial purposes by enacting an additional clause in the Copyright Act. Its necessity is questionable in that Korea has “fair use” as a general limitation clause(Article 35-5) since 2011. If commercial purposes data mining is inevitable, it can be resolved under the control of four fairness factors with the existing “fair use” clause which was adopted with the Korea/US FTA. Even before the legislation of "fair use" in 2011, Korean Courts have referred to the four fairness factors of Article 107 of the U.S. Copyright Act as an analysis tool in the application of Article 28, a pseudo general limitation clause at that time. This experience of the Courts regarding 'fair use' doctrine is by no means negligible. It is also worth noting the Australian government's attitude to introduce ‘fair use’ doctrine. The Australian ALRC analyzed that 'fair use' suggests more clear and predictable standard compared to diverse 'fair dealings' of the Australian copyright act. In Germany, data mining for non-profit academic purposes only was allowed, France limited the sphere to scientific publications from legitimate sources, so it was intended to allow only text mining. Commercial purposes data mining seems to be allowable under the European Union Digital Single Market Directive, however right holders have the right to opt-out for commercial data mining(Art. 4). The opt-out scheme may leave commercial purposes data mining at the mercy of the content owners, making EU data mining operators inferior to the U.S. competitors. The fact that U.K, recently drew a line against commercial data mining is also noticeable. Comparatively and from our experience, the 'fair use' of the Korean Copyright Act itself could function as a useful scheme in dealing with data mining, commercial purpose inclusive though which is undesirable. In this situation, additional enactment the Government is pursuing currently might result in legislative excess. 국회에 상정된 저작권법 전면 개정안에서는 상업적 목적 데이터마이닝까지 허용하였다. 우리 저작권법이 일반규정으로서의 공정이용(제35조의 5)을 이미 입법하고 있다는 점에서 그 타당성은 의문이다. 상업적 이익의 데이터마이닝이 부득이 필요하다면 기존 ‘공정이용’ 규정으로 - 4가지 공정성 항목(fairness factors)의 통제 하에 - 해결 할 수 있다. 우리 법원은 2011년 ‘공정이용’을 입법하기 훨씬 이전부터 ‘공표된 저작물의 인용(제28조)’의 적용에 있어 미국 저작권법 제107조의 4개 항목을 분석도구로 적잖이 활용하여 왔다. 법원이 분석도구로서 미국법의 ‘fair use’ 규정을 활용한 경험이 결코 무시할만한 수준이 아닌 것이다. 최근 ‘fair use’ 도입을 시도하는 호주 정부의 입장도 참고할 만하다. 호주 입법위원회(ALRC)는 ‘fair use’가 그 자체로서 호주 저작권법의 한정적 열거규정인 ‘fair dealing’과 비교할 때 명확하고 예측가능하다고 분석하였다. ‘fair use’의 4가지 공정성 항목, 호주의 판례나 관련국가의 판례, 업계의 관행, 직업규약(code of practice)을 고려하면 이용자와 권리자가 예상할 만한 기준이 도출된다는 것이다. 독일에서는 비영리학술목적의 데이터마이닝을 허용하면서 보상의무까지 규정하였고, 프랑스는 그 대상을 합법적 출처의 과학출판물로 제한하고 있으므로 텍스트마이닝만을 허용하는 취지였다. 유럽연합 디지털 단일시장 지침의 데이터마이닝 규정은 상업적 목적 데이터마이닝에 opt-out이 가능하도록 하였다. 실제로 opt-out 제도는 상업적 목적 데이터마이닝을 권리자의 처분에 맡기는 결과가 되고, 결과적으로 상업적 목적 데이터마이닝까지도 ‘fair use’로 허용할 여지가 있는 미국에 비하여 유럽의 데이터마이닝 사업자를 배려하지 않는다는 비판까지도 받는다. 유럽연합에서 이탈한 영국이 최근 창작자들의 반발을 의식하여 상업적 목적 데이터마이닝에 대하여 일정한 선을 그었다는 사실은 시사하는 바가 크다. 비교법적으로 보나 우리 법원의 경험으로 보나 저작권법의 ‘공정이용’ 규정은 그 자체로 데이터마이닝을 처리하는데 무리가 없는 규정이다. 저작권법 전면개정안의 데이터마이닝 규정은 과잉입법이라고 지적한다.

      • KCI등재

        오디세우스/DM : 오디세우스 객체 관계형 DBMS와 밀결합된 데이터 마이닝 시스템의 설계 및 구현

        이일엽,김민수,김준성,이정훈,황규영 한국정보과학회 2012 정보과학회논문지 : 데이타베이스 Vol.39 No.4

        데이터의 양이 급증함에 따라 데이터 마이닝의 대상인 데이터가 대부분 DBMS에 의해 관리되면서, 데이터 마이닝 기능을 DBMS와 결합하여 수행하는 데이터 마이닝 시스템의 성능이 중요한 이슈가 되고 있다. 데이터 마이닝 기능과 DBMS의 결합 방법은 데이터 마이닝 시스템의 성능에 큰 영향을 미치는데, 소결합과 밀결합으로 구분할 수 있다. 데이터 마이닝 기능을 DBMS 외부에 구현하는 소결합 방법은 DBMS의 상위 레벨 인터페이스를 사용하기 때문에 구현은 용이하지만 높은 성능을 기대하기 어렵고, 데이터 마이닝 기능을 DBMS 내부에 구현하는 밀결합 방법은 DBMS의 하위 레벨 인터페이스를 사용하기 때문에 구현이 어렵지만 높은 성능을 보인다. 데이터 마이닝 시스템의 성능 향상을 위해서는 밀결합 방법이 필수적이지만, 대부분의 기존 시스템들은 소결합 방법으로 구현되어 있다. 따라서, 본 논문에서는 우수한 성능의 데이터 마이닝 시스템 구현을 위해 데이터 마이닝 기능을 오디세우스 객체 관계형 DBMS에 밀결합하는 방법을 제안하고, 이를 따르는 오디세우스/DM(Data Mining)을 구현한다. 오디세우스/DM은 데이터 마이닝 기능 수행에 필요한 타입 및 연산을 DBMS 엔진 내부에 구현하여 소결합 방법에서 발생하는 오버헤드를 최소화한다. 또한, 오디세우스/DM은 기존 시스템들과의 상호 운용성을 높이기 위해 데이터 마이닝 결과 표현을 위한 산업 표준인 PMML(Predictive Model Markup Language)을 지원한다. 실험에서는 오디세우스/DM의 성능이 소결합 방법으로 구현한 데이터 마이닝 시스템에 비해 우수함을 보인다. As the amount of data increases rapidly, the data to be mined is more and more managed in the DBMS. Thus, the performance of data mining systems integrating data mining functionalities with the DBMS becomes an important issue. The methods of integrating data mining functionalities with the DBMS have an effect on the performance of the data mining system and can be classified into two categories: loose-coupling and tight-coupling. In loose-coupling, data mining functionalities are implemented outside the DBMS. Since it uses a high-level interface of the DBMS, it is easy to implement, but difficult to achieve high performance. In tight-coupling, data mining functionalities are implemented inside the DBMS. Since it uses a low-level interface of the DBMS, its implementation is non-trivial but easy to achieve high performance. Although the implementation of a high-performance data mining system requires the tight-coupling architecture, most of the existing systems are implemented in the loose-coupling architecture. Therefore, in order to implement a high performance data mining system, we introduce an architecture that tightly couples data mining functionalities with the Odysseus object-relational DBMS, and implement Odysseus/DM (Data Mining) that adopts this architecture. By implementing a type and operations related to data mining functionalities inside the DBMS engine, Odysseus/DM minimizes the overhead that can be incurred in the loose-coupling architecture. Odysseus/DM supports PMML (Predictive Model Markup Language), which is an industrial standard for representing data mining results, in order to provide interoperability with the existing systems. Finally, we conduct experiments showing that the performance of Odysseus/DM is superior to that of a data mining system implemented in the loose-coupling architecture.

      • KCI등재

        데이터의 비계약적 이용 - 데이터 마이닝을 위한 저작권 제한을 중심으로 -

        이상용(Sang Yong Lee) 강원대학교 비교법학연구소 2021 江原法學 Vol.65 No.-

        데이터가 중요한 자원이자 상품으로 기능하는 데이터 경제 시대가 다가옴에 따라 빅데이터 분석이나 인공지능 학습을 위한 데이터 마이닝(Text Data Mining, TDM)의 중요성이 점차 커지고 있다. 데이터 마이닝 과정에서는 엄청난 양의 개별데이터가 복제되어 분석되는데, 이들 개별데이터 중에는 타인의 권리의 대상이 되는 저작물 등도 존재할 수 있다. 이러한 개별데이터 이용의 적법성을 확보하기 위해서는 권리자의 동의를 얻는 계약적 방법에 의하는 것이 원칙이겠지만, 수많은 개별데이터 중 저작권 등의 목적이 되는 것을 식별하여 권리자의 동의를 얻는 것은 현실적으로 불가능하다. 이를 해결하기 위한 방안으로는 온라인서비스제공자의 책임 제한 규정이나, 일시적 복제에 대한 저작재산권 제한 규정 등이 언급되고 있으며, 특히 공정이용에 관한 조항이 유력한 대안으로 제시되고 있다. 그러나 예측 가능성을 제고하기 위해서는 데이터 마이닝을 위한 별도의 조항이 마련될 필요가 있다. 영국, 독일, 유럽연합, 미국, 일본 등은 이미 이러한 조항을 도입하였으며, 우리나라에서도 이를 위한 저작권법 개정안이 제출되어 있다. 데이터 마이닝을 위한 저작재산권 제한 조항을 마련함에 있어서는 저작권자의 정당한 이익 보호와 데이터 마이닝 활용을 장려할 공익 사이에 균형을 맞출 필요가 있다. 특히 영리 목적의 경우에도 면책을 인정할 것인지 여부와 적법한 접근권한이 있음을 요건으로 할 것인지 등이 문제된다. 저작권법 개정안은 영리 목적에 한정하지는 않지만 적법한 접근을 요건으로 함으로써 균형을 도모하고 있다. 데이터 마이닝을 위한 저작재산권 제한의 법리는 다른 권리에도 확장될 수 있다. 다만 창작성을 요건으로 하지 않는 데이터세트 보호를 위한 권리의 경우, 예컨대 데이터베이스 제작자의 권리의 경우에는 면책의 범위가 달라질 여지가 있다. 데이터세트 생산의 인센티브를 중시한다면 면책의 범위를 좁혀야 할 것이다. 이런 점에서 데이터베이스 제작자의 권리에도 데이터 마이닝을 위한 저작재산권 제한 규정을 그대로 준용하도록 한 저작권법 개정안은 재고할 필요가 있다. As the era of the data economy approaches, in which data functions as an important resource and product, the importance of data mining (Text Data Mining, TDM) for big data analysis or machine learning is increasing. In the data mining process, a huge amount of data is copied and analyzed, and among these data, there may be works that are the object of the copyrights of others. In principle, in order to secure the legality of the use of data, it is needed to obtain the consent of the right holder. However, It is practically impossible to identify the object of copyright among numerous individual data and obtain the consent of the right holder. As a way to solve this problem, ‘fair use’ is suggested as a useful legal doctrine. However, in order to improve predictability, a separate provision for data mining needs to be prepared. Many countries including the United Kingdom, Germany, the European Union, the United States, and Japan have already introduced such provisions, and a revised copyright law has been submitted in Korea for this purpose. In preparing limitations to copyright for data mining, it is necessary to strike a balance between protecting the legitimate interests of copyright holders and the public interest to encourage the use of data mining. In particular, there are issues such as whether to grant immunity even for commercial purposes and whether to require that there is a legitimate access right. The jurisprudence of limitations to copyright for data mining can be extended to other rights as well. However, in the case of rights to protect datasets that do not require creativity, for example, the sui generis database right, the scope of immunity may vary. If you value the incentive to produce datasets, you will have to narrow the scope of immunity. In this regard, it is necessary to reconsider the amendment to the Copyright Act, which makes limitations to copyright for data mining apply mutatis mutandis to the sui generis database right.

      • 데이터 마이닝 질의 처리를 위한 질의 처리기 설계 및 구현

        김충석,김경창,Kim, Chung-Seok,Kim, Kyung-Chang 한국정보처리학회 2001 정보처리학회논문지D Vol.8 No.2

        데이터 마이닝 시스템은 기본적으로 요약화, 연관화와 분류화 등 다양한 유형의 데이터 마이닝 기능을 포함한다. 이들 기능을 수행하기 위해서 포괄적으로 표현하기 위한 강력한 데이터 마이닝 질의 언어가 요구되며, 사용자에게 보다 친숙한 마이닝 환경을 제공하기 위해서 그래픽 사용자 인터페이스(GUI)를 이용한 데이터 마이닝 질의 언어의 개발이 중요하게 언급된다. 뿐만 아니라 데이터 마이닝 그 자체로서 독립적인 수행이 아니라 수많은 데이터를 포함하며, 의사결정에 적합한 구조로 설계되어 있는 데이터 웨어하우스와 연관된 데이터 마이닝 질의 처리가 필요하다. 본 논문에서는 먼저 GUI를 통하여 사용자가 쉽게 데이터 마이닝 질의를 수행할 수 있도록 한다. 또한 질의를 처리하기 위한 데이터 마이닝 질의 처리 프레임워크를 제시한다. 데이터마이닝 질의의 대상은 데이터 웨어하우스에 저장되어 있는 데이터이기 때문에 데이터 웨어하우스의 구축이 필요하다. 본 논문에서는 데이터 웨어하우스 구축에 필요한 스키마 생성을 위해서 스키마 생성기를 아울러 개발하여 이용한다. 마지막으로 연관 규칙 발견을 위한 데이터 마이닝 질의를 처리하기 위한 질의 처리기의 구현 내용을 보인다. A data mining system includes various data mining functions such as aggregation, association and classification, among others. To express these data mining function, a powerful data mining query language is needed. In addition, a graphic user interface(GUI) based on the data mining query language is needed for users. In addition, processing a data mining query targeted for a data warehouse, which is the appropriate data repository for decision making, is needed. In this paper, we first build a GUI to enable users to easily define data mining queries. We then propose a data mining query processing framework that can be used to process a data mining query targeted for a data warehouse. We also implement a schema generate a data warehouse schema that is needed to build a data warehouse. Lastly, we show the implementation details of a query processor that can process queries that discover association rules.

      • 공간 데이터 마이닝 시스템의 설계 및 구현

        배덕호,백지행,오현교,송주원,김상욱,최명회,조현주,Bae, DUck-Ho,Baek, Ji-Haeng,Oh, Hyun-Kyo,Song, Ju-Won,Kim, Sang-Wook,Choi, Myoung-Hoi,Jo, Hyeon-Ju 한국공간정보학회 2009 한국공간정보시스템학회 논문지 Vol.11 No.2

        GIS 기술의 발달로 많은 양의 공간 데이터가 축적됨에 따라 공간 데이터 마이닝의 중요성이 커지고 있다. 본 논문에서는 새로운 공간 데이터 마이닝 시스템 SD-Miner를 제안한다. SD-Miner는 크게 입력과 출력을 담당하는 사용자 인터페이스, 공간 데이터 마이닝 기능을 처리하는 데이터 마이닝 모듈, DBMS를 이용하여 데이터를 저장하고 관리하는 데이터 저장 모듈의 세 부분으로 구성된다. 특히, 데이터 마이닝 함수 모듈에서는 공간 데이터 마이닝의 주요 기법인 공간 클러스터링, 공간 분류, 공간 특성화, 시공 간 연관규칙 탐사 기능을 제공한다. SD-Miner는 다음과 같은 특징을 가진다. SD-Miner는 사용자로 하여 금 공간 데이터 마이닝뿐만 아니라 비 공간 데이터에 대한 마이닝도 가능하게 하며, 각 마이닝 함수들을 라이브러리 형태로 제공하기 때문에 다른 시스템에서도 쉽게 사용 가능하다. 또한, 마이닝 매개 변수들을 테이블의 형태로 입력받기 때문에 시스템의 범용성이 높다. 개발된 SD-Miner의 실용성을 규명하기 위하여 실제 공간 데이터를 이용한 데이터 마이닝을 수행함으로써 여러 가지 의미있는 결과를 도출한다. Owing to the GIS technology, a vast volume of spatial data has been accumulated, thereby incurring the necessity of spatial data mining techniques. In this paper, we propose a new spatial data mining system named SD-Miner. SD-Miner consists of three parts: a graphical user interface for inputs and outputs, a data mining module that processes spatial mining functionalities, a data storage model that stores and manages spatial as well as non-spatial data by using a DBMS. In particular, the data mining module provides major data mining functionalities such as spatial clustering, spatial classification, spatial characterization, and spatio-temporal association rule mining. SD-Miner has own characteristics: (1) It supports users to perform non-spatial data mining functionalities as well as spatial data mining functionalities intuitively and effectively; (2) It provides users with spatial data mining functions as a form of libraries, thereby making applications conveniently use those functions. (3) It inputs parameters for mining as a form of database tables to increase flexibility. In order to verify the practicality of our SD-Miner developed, we present meaningful results obtained by performing spatial data mining with real-world spatial data.

      • KCI등재

        대표 패턴 마이닝에 활용되는 패턴 압축 기법들에 대한 분석 및 성능 평가

        이강인 ( Gang-in Lee ),윤은일 ( Un-il Yun ) 한국인터넷정보학회 2015 인터넷정보학회논문지 Vol.16 No.2

        데이터 마이닝에서 활발히 연구되고 있는 주요 분야들 가운데 하나인 빈발 패턴 마이닝은 대규모의 데이터 집합 또는 데이터베이스로부터 숨겨진 유용한 패턴 정보를 추출하기 위한 방법이다. 또한 이 기법으로 얻을 수 있는 결과물을 통해 데이터베이스내의 다양하고 중요한 특징들을 더욱 손쉽게 자동적으로 분석할 수 있기 때문에 많은 응용영역에도 활발히 적용되고 있다. 하지만 이러한 데이터베이스로부터 단순히 사용자에 의해 설정된 최소 지지도 임계값만을 가지고 이를 만족하는 모든 패턴들을 추출하는 기존의 전통적인 빈발 패턴 마이닝 방식은 데이터베이스의 특성과 임계값 설정의 정도에 따라 극도로 많은 수의 결과 패턴을 생성하는 문제를 가지며, 이에 따른 시간 및 공간 자원의 낭비를 초래한다. 또한 과도하게 생성된 패턴에 대한 분석의 어려움 역시 심각한 문제가 된다. 기존의 빈발 패턴 마이닝 접근방법들이 직면한 이러한 문제를 해결하고자, 데이터베이스로부터 가능한 모든 빈발 패턴들을 마이닝하는 것이 아닌, 이들에 대한 대표 패턴들만은 선별적으로 추출할 수 있도록 하는 대표 패턴 마이닝의 개념과 다양한 관련 기법들이 제안되었다. 본 논문에서는 생성되는 각 패턴의 최대성 또는 폐쇄성을 고려하는 패턴 압축 기법들에 대한 특성들을 기술하고, 이에 대한 비교 및 분석을 진행한다. 최대 빈발 패턴 혹은 닫힌 빈발 패턴들을 마이닝함으로써, 효과적인 패턴 압축이 가능하며, 더 적은 시공간 자원으로 마이닝 작업을 수행할 수 있다. 또한 압축된 패턴들은 필요시 다시 원래의 패턴 형태로 복구가 가능한 특징이 있으며, 특히 닫힌 패턴 접근 방법을 이용하면 패턴을 압축하고 다시 해제하는 과정에서 어떠한 정보의 손실도 일어나지 않는다. 본 논문에서는 같은 플랫폼 상에서 동일한 구현 수준의 알고리즘에 대해 실세계로부터 축적된 실 데이터셋들을 가지고 상기 기법들에 대한 성능평가를 진행함으로써, 각 기법이 패턴 생성, 수행 시간, 메모리 사용량과 같은 실제적인 마이닝 성능에 대해 어떠한 영향을 미치는지에 대한 심층적 분석결과를 보인다. Frequent pattern mining, which is one of the major areas actively studied in data mining, is a method for extracting useful pattern information hidden from large data sets or databases. Moreover, frequent pattern mining approaches have been actively employed in a variety of application fields because the results obtained from them can allow us to analyze various, important characteristics within databases more easily and automatically. However, traditional frequent pattern mining methods, which simply extract all of the possible frequent patterns such that each of their support values is not smaller than a user-given minimum support threshold, have the following problems. First, traditional approaches have to generate a numerous number of patterns according to the features of a given database and the degree of threshold settings, and the number can also increase in geometrical progression. In addition, such works also cause waste of runtime and memory resources. Furthermore, the pattern results excessively generated from the methods also lead to troubles of pattern analysis for the mining results. In order to solve such issues of previous traditional frequent pattern mining approaches, the concept of representative pattern mining and its various related works have been proposed. In contrast to the traditional ones that find all the possible frequent patterns from databases, representative pattern mining approaches selectively extract a smaller number of patterns that represent general frequent patterns. In this paper, we describe details and characteristics of pattern condensing techniques that consider the maximality or closure property of generated frequent patterns, and conduct comparison and analysis for the techniques. Given a frequent pattern, satisfying the maximality for the pattern signifies that all of the possible super sets of the pattern must have smaller support values than a user-specific minimum support threshold; meanwhile, satisfying the closure property for the pattern means that there is no superset of which the support is equal to that of the pattern with respect to all the possible super sets. By mining maximal frequent patterns or closed frequent ones, we can achieve effective pattern compression and also perform mining operations with much smaller time and space resources. In addition, compressed patterns can be converted into the original frequent pattern forms again if necessary; especially, the closed frequent pattern notation has the ability to convert representative patterns into the original ones again without any information loss. That is, we can obtain a complete set of original frequent patterns from closed frequent ones. Although the maximal frequent pattern notation does not guarantee a complete recovery rate in the process of pattern conversion, it has an advantage that can extract a smaller number of representative patterns more quickly compared to the closed frequent pattern notation. In this paper, we show the performance results and characteristics of the aforementioned techniques in terms of pattern generation, runtime, and memory usage by conducting performance evaluation with respect to various real data sets collected from the real world. For more exact comparison, we also employ the algorithms implementing these techniques on the same platform and Implementation level.

      • KCI등재

        빅데이터의 이용활성화를 위한 저작권법적 고찰 - 데이터 마이닝 등을 중심으로 -

        최종모 ( Choi Jongmo ) 중앙대학교 문화미디어엔터테인먼트법연구소 2018 문화.미디어.엔터테인먼트 법 Vol.12 No.2

        제4차 산업혁명은 빅데이터 및 인공지능 등을 원동력으로 삼아 발전되며, 인공지능은 빅데이터와 데이터 마이닝을 통하여 발전된다. 데이터는 정형데이터와 비정형데이터로 나눌 수 있으며, 특히 비정형데이터의 경우 저작권법적 쟁점이 발생한다. 데이터 마이닝시 일시적 복제 등이 발생한다. 또한 데이터 마이닝이 현행저작권법 저작재산군재한사유로서 별도의 규정으로 규정되어 있지 않다. 그러나 데이터 마이닝이 비영리를 목적으로 하는 경우에는 저작권법 제35조의3에 따른 공정이용에 해당될 여지가 높다고 판단되고, 영리목적인 경우 그러하지 않다. 이러한 쟁점에 대한 해결방안으로서 영리목적을 포함한 데이터 마이닝을 저작재산권제한사유로 신설하는 것을 제시한다. 비영리목적인 데이터 마이닝만을 저작재산권제한사유로 신설하는 경우 데이터 마이닝 관련 산업을 육성 및 촉진하는데 장애요인이 될 것으로 판단된다. 다만 저작재산권제한사유로서 데이터 마이닝에 대한 규정의 신설로 인하여 발생하는 저작재산권자의 재산권의 침해는 ‘정보 분석(데이터 마이닝)의 목적을 위한 보상금’제도를 신설함으로써 보호되어야 한다. 이러한 데이터 마이닝이 저작재산권제한사유로서 신설되면, 일시적 복재의 경우 합법적인 저작물을 이용한 경우에는 저작권침해에 해당되지 않는다. 수집데이터로서 인공지능 작성물을 활용한 경우 현행 저작권법상 인공지능 작성물을 저작권법상 저작물에 해당되지는 않으나, 인공지능 작성물에 대한 저작권법상 보호에 대한 논의가 제기될 것으로 판단된다. 또한 인공지능 작성물을 보호하는 경우 인간의 창작물과 구별될 필요가 있다. The Fourth Industrial Revolution will be developed with Big data and Artificial Intelligence as the driving force. Artificial Intelligence also is developed through big data and data mining. The Data can be divided into structured data and unstructured data. The unstructured data has copyright legal issues. Moreover a temporary reproduction at data mining on unstructured data occurs. In addition, data mining falls not currently the limitation to protection of economic rights. However, if data mining is for non-profit purposes, it consider highly as applicable to fair use pursuant to Article 35-3 of the Copyright Act, but it is not for profit-making purposes. As a solution to these issues, the data mining including for-profit purposes is proposed as the limitation to protection of economic rights. If data mining, which is a nonprofit purpose, falls only under the limitation to protection of economic rights, it will be a Hurdle to fostering and promoting the industry related to data mining. However, it arise infringement on the property right of the author rights holder, if data mining, which is a profit purpose, falls under the limitation to protection of economic rights. According, the of the property right in the author rights holder should be protected by adopting of the “compensation for the purpose of information analysis (data mining)”system. In addition, in the case of a temporary reproduction, it does not constitute a copyright infringement if a legitimate work is used. If it is used a work written by Artificial Intelligence as a basic data, it is need to discuss that the work written by Artificial Intelligence should be protected by Copyright Law. although it is not currently under Copyright Law. The work written by Artificial Intelligence should be also protected different from a work written by Human.

      • 기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

        진대용 ( Daeyong Jin Et Al. ),강성원,최희선,한국진,김도연 한국환경정책평가연구원 2018 기후환경정책연구 Vol.2018 No.-

        본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다.먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이 다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다.다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다.본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재 해(폭염, 한파 등)와 같은 세부현상메 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후 변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다.본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다.본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다. In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived.First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it.Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news,Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition,the data is used to enable analysis of the latest data.Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust’,'heat waves’, and ’environmentally friendly1 had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of ’climate change1 such as 'heat waves’,and ’cold waves' rather than the keyword 'climate change’. In detail, Naver’s environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for ’global climate change’,such as the phenomenon of global wanning and greenhouse gas reduction, has decreased over time. On Naver environmental news,the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves’, ’drought’ and ’cold waves’. The Ministry of Environment’s press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat,cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as ’fine dust’ and 'heat waves’ are showing an increasing trend. Unlike other documents, the keyword of ‘climate change9 is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers.Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis.Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼