데이터 마이닝의 분석을 진행하는 단계에서 발생할 수 있는 문제 중 하나가 불균형 데이터(Imbalanced Data) 문제이다. 데이터 불균형의 문제점은 지도학습 기법을 적용할 때, 한 쪽의 범주가 비...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
국문 초록 (Abstract)
데이터 마이닝의 분석을 진행하는 단계에서 발생할 수 있는 문제 중 하나가 불균형 데이터(Imbalanced Data) 문제이다. 데이터 불균형의 문제점은 지도학습 기법을 적용할 때, 한 쪽의 범주가 비...
데이터 마이닝의 분석을 진행하는 단계에서 발생할 수 있는 문제 중 하나가 불균형 데이터(Imbalanced Data) 문제이다. 데이터 불균형의 문제점은 지도학습 기법을 적용할 때, 한 쪽의 범주가 비정상적으로 큰 경우, 지도 학습 모델은 전체적인 오분류를 작게 하기 위해서, 다수의 범주로 패턴 분류를 많이 하게 되고, 이 경우 소수의 범주는 다수의 범주로 취급되어 올바른 분석을 진행할 수 없다.
본 논문에서는 프리드만(1984), 장영재(2008) 모형에 대하여 데이터를 형성하고 Over Sampling, Under Sampling, Over+Under Sampling, SMOTE 방법의 Sampling 기법을 적용하여 결과를 확인한다. 또한, Page Blocks Classification Data를 다양한 Sampling 기법을 적용하여 확인한 결과 Over Sampling과 Under Sampling을 이용한 모형의 결과가 가장 우수하였다.
다국어 초록 (Multilingual Abstract)
In the data mining step, we are faced with Imbalanced data problem. Applying the supervised learning technique with Imbalanced data set, the supervised learning model predicts that all of the datas are major group to reduce rate of the misclassificati...
In the data mining step, we are faced with Imbalanced data problem. Applying the supervised learning technique with Imbalanced data set, the supervised learning model predicts that all of the datas are major group to reduce rate of the misclassification. In this case, we can not do appropriate analysis.
In this paper, we generate simulation data sets(Freideman, Jang Yeoung-jae). To classify accurately, we use sampling methods; Over Sampling, Under Sampling, Over+Under Sampling and SMOTE. Also, we analyze the Page Blocks Classification Data using those methods. Consequentially, we can find that Over Sampling and Under Sampling have very excellent results.
목차 (Table of Contents)