RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 = Selecting the optimal threshold based on impurity index in imbalanced classification

      한글로보기

      https://www.riss.kr/link?id=A107900974

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      In this paper, we propose the method of adjusting thresholds using impurity indices in classification analysis on imbalanced data. Suppose the minority category is Positive and the majority category is Negative for the imbalanced binomial data. When c...

      In this paper, we propose the method of adjusting thresholds using impurity indices in classification analysis on imbalanced data. Suppose the minority category is Positive and the majority category is Negative for the imbalanced binomial data. When categories are determined based on the commonly used 0.5 basis, the specificity tends to be high in unbalanced data while the sensitivity is relatively low. Increasing sensitivity is important when proper classification of objects in minority categories is relatively important. We explore how to increase sensitivity through adjusting thresholds. Existing studies have adjusted thresholds based on measures such as G-Mean and F1-score, but in this paper, we propose a method to select optimal thresholds using the chi-square statistic of CHAID, the Gini index of CART, and the entropy of C4.5. We also introduce how to get a possible unique value when multiple optimal thresholds are obtained. Empirical analysis shows what improvements have been made compared to the results based on 0.5 through classification performance metrics.

      더보기

      국문 초록 (Abstract)

      이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고...

      이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

      더보기

      참고문헌 (Reference)

      1 김한용, "불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점" 한국통계학회 30 (30): 681-690, 2017

      2 김동아, "불균형 자료에 대한 분류분석" 한국통계학회 28 (28): 495-509, 2015

      3 Blake C, "UCI Repository of Machine Learning Databases" Department of Information and Computer Science, University of California 1998

      4 Voigt T, "Threshold optimization for classification in imbalanced data in a problem of gamma-ray astronomy" 8 : 195-216, 2014

      5 Yu H, "Support vector machine-based optimized decision threshold adjustment strategy for classifying imbalanced data" 76 : 67-78, 2015

      6 Chawla NV, "SMOTEboost: improving prediction of the minority class in boosting" 107-119, 2003

      7 Chawla NV, "SMOTE : synthetic minority over-sampling technique" 16 : 321-357, 2002

      8 Akosa J, "Predictive accuracy: a misleading performance measure for highly imbalanced data" SAS 1-12, 2017

      9 Espindola RP, "On extending f-measure and G-Mean metrics to multi-class problems" 35 : 25-34, 2005

      10 Quinlan JR, "Induction of decision trees" 1 : 81-106, 1986

      1 김한용, "불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점" 한국통계학회 30 (30): 681-690, 2017

      2 김동아, "불균형 자료에 대한 분류분석" 한국통계학회 28 (28): 495-509, 2015

      3 Blake C, "UCI Repository of Machine Learning Databases" Department of Information and Computer Science, University of California 1998

      4 Voigt T, "Threshold optimization for classification in imbalanced data in a problem of gamma-ray astronomy" 8 : 195-216, 2014

      5 Yu H, "Support vector machine-based optimized decision threshold adjustment strategy for classifying imbalanced data" 76 : 67-78, 2015

      6 Chawla NV, "SMOTEboost: improving prediction of the minority class in boosting" 107-119, 2003

      7 Chawla NV, "SMOTE : synthetic minority over-sampling technique" 16 : 321-357, 2002

      8 Akosa J, "Predictive accuracy: a misleading performance measure for highly imbalanced data" SAS 1-12, 2017

      9 Espindola RP, "On extending f-measure and G-Mean metrics to multi-class problems" 35 : 25-34, 2005

      10 Quinlan JR, "Induction of decision trees" 1 : 81-106, 1986

      11 Zou Q, "Finding the best classification threshold in imbalanced classification" 5 : 2-8, 2016

      12 Woods K, "Comparative evaluation of pattern recognition techniques for detection of microcalcifications in mammography" 7 : 1417-1436, 1993

      13 Breiman L, "Classification and Regression Trees" Chapman &Hall 1984

      14 Longadge R, "Class imbalance problem in data mining: review" 2 : 2013

      15 Quinlan JR, "C4.5: Programs for Machine Learning" Morgan Kaufmann Publishers 1993

      16 Kass GV, "An exploratory technique for investigating large quantities of categorical data" 29 : 119-127, 1980

      17 Collell G, "A simple plug-in bagging ensemble based on threshold-moving for classifying binary and multiclass imbalanced data" 275 : 330-340, 2018

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-07-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2000-01-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.38 0.38 0.38
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.35 0.34 0.565 0.17
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼