http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
김철연(Chulyun Kim),임종화(Jong-Hwa Lim),Raymond T. Ng,심규석(Kyuseok Shim) 한국정보과학회 2006 정보과학회논문지 : 데이타베이스 Vol.33 No.5
순차 패턴을 찾는 것은 데이타마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 경제나 과학분야와 같은 많은 분야에서는 정량 정보가 아이템과 같이 기록되어 있으며, 기존의 알고리즘이 처리하지 못하는 이러한 정량 정보는 사용자에게 보다 유용한 정보를 전달하여 줄 수 있다 본 논문에서는 정량 정보를 포함한 순차패턴 마이닝 문제를 제안하였다. 기존의 순차패턴 알고리즘에 대한 단순한 확장으로는 모든 정량에 대한 후보 패턴들을 모두 생성하기 때문에 확대된 탐색 공간을 효율적으로 탐색할 수 없음을 보이고, 이러한 단순한 확장 알고리즘의 성능을 대폭 향상시키기 위하여 정량정보에 대해 해쉬 필터링과 정량 샘플링 기법을 제안하였다. 다양한 실험 결과들은 제안된 기법들이 단순히 확장된 알고리즘과 비교하여 수행시간을 매우 단축시켜 줄 뿐만 아니라, 데이타베이스 크기에 대한 확장성 또한 향상시켜줌을 보여 준다. Discovering sequential patterns is an important problem for many applications. Existing algorithms find sequential patterns in the sense that only items are included in the patterns. However, for many applications, such as business and scientific applications, quantitative attributes are often recorded in the data, which are ignored by existing algorithms but can provide useful insight to the users. In this paper, we consider the problem of mining sequential patterns with quantities. We demonstrate that naive extensions to existing algorithms for sequential patterns are inefficient, as they mayenumerate the search space blindly. Thus, we propose hash filtering and quantity sampling techniques that significantly improve the performance of the naive extensions. Experimental results confirm that compared with the naive extensions, these schemes not only improve the execution time substantially but also show better scalability for sequential patterns with quantities.
퀀터티가 있는 순차 패턴을 찾는 깊이 우선 탐색 알고리즘
김철연(Chulyun Kim),심규석(Kyuseok Shim) 한국정보과학회 2004 한국정보과학회 학술발표논문집 Vol.31 No.1B
순차 패턴을 찾는 것은 데이타 마이닝 응용분야에서 중요한 문제이다. 기존의 순차 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 Apriori-QSP에서는 새롭게 퀀터티 정보에 대한 처리의 개념을 도입하였다. 전체 순차 패턴을 찾는 알고리즘들은 너비 우선 탐색과 깊이 우선 탐색 기법으로 분류할 수 있는데, 이러한 분류에서 Apriori-QSP 알고리즘은 너비 우선 탐색 기법으로 분류할 수 있다. 본 논문에서는 퀀터티 정보를 처리하는 깊이 우선 탐색 기법을 제안하였다. Apriori-QSP에서 제안되었던 후보패턴 생성에 대한 필터링과 샘플링 기법을 깊이 우선 탐색의 탐색 기법으로 적용하였으며, 다양한 실험 결과들이 깊이 우선 탐색에서도 이러한 기법이 효율적임을 보여 주고 있다. 또한 길이가 긴 순차 패턴 마이닝의 경우 너비우선 탐색에 비해 향상된 성능을 보임을 확인하였다.
김철연(Chulyun Kim) 한국정보과학회 2012 정보과학회논문지 : 데이타베이스 Vol.39 No.6
웨이블릿은 데이터베이스 시스템의 질의최적화, 개략 질의처리와 멀티미디어 데이터에 대한 특징 추출 등에 사용되어 온 대표적인 정보 개략화 알고리즘으로 원본 데이터의 정보 손실을 최소화하는 최적의 시놉시스를 생성하는 알고리즘이다. 맵리듀스는 분산처리를 위한 플랫폼으로 구글의 데이터 처리를 위한 플랫폼으로 사용되어 최근 다양한 분야에서 각광을 받고 있다. 맵리듀스 플랫폼은 분산 파일시스템에 저장되어 있는 데이터들을 맵과 리듀스의 2단계 분산 프로세스로 데이터를 처리하는 구조를 가지고 있으며, 다양한 기존의 알고리즘들이 이러한 맵리듀스 플랫폼 상에서 실행될 수 있도록 재구성되고 있다. 이에 본 논문에서는 분산된 맵리듀스 환경에서의 웨이블릿 시놉시스 생성 알고리즘을 제안한다. 제안하는 알고리즘은 한번의 맵리듀스 절차를 통해 웨이블릿 시놉시스를 분산 환경에서 계산할 수 있으며, 분산환경의 네트워크상의 데이터 교환을 최소화하여 선형의 시간복잡도 내에서 최적의 웨이블릿 시놉시스를 계산한다. The Wavelet synopsis is a representative dimensionality reduction method and has been popularly used in query optimization, approximate query answering, feature selection from multimedia data, etc. The MapReduce is a distributed platform which is well known as Google’s data processing platform. A MapReduce phase consists of consecutive map and reduce steps, and many traditional algorithms are being converted to be executable in the MapReduce platform. In this paper we propose a new algorithm to generate wavelet synopses in the distributed MapReduce framework. In the proposed algorithm, the optimal wavelet synopsis can be generated by a single MapReduce phase, and, by minimizing the amount of data communicated through the network of the distributed MapReduce platform, all computations are processed within a linear time complexity.