RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리

        이동준,강지수,정경용 중소기업융합학회 2021 융합정보논문지 Vol.11 No.6

        최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케 어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에 는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행 하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개 의 모델을 앙상블한다. With the recent development of smart healthcare technology, interest in daily diseases is increasing. However, healthcare data has an imbalance between positive and negative data. This is caused by the difficulty of collecting data because there are relatively many people who are not patients compared to patients with certain diseases. Data imbalances need to be adjusted because they affect performance in ongoing learning during disease prediction and analysis. Therefore, in this paper, We replace missing values through multiple imputation in detection models to determine whether they are prevalent or not, and resolve data imbalances through over-sampling. Based on AutoML using preprocessed data, We generate several models and select top 3 models to generate ensemble models.

      • CycleGAN을 이용한 편향 테이블 데이터 (Imbalanced Table Data) 오버샘플링 (Oversampling) 문제 해결 방안에 대한 연구 : 금융사기를 중심으로

        노정담,최병구 한국경영정보학회 2019 한국경영정보학회 학술대회논문집 Vol.2019 No.11

        현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 통계 기법 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델 중 CycleGAN을 정형 데이터에 맞게 변형시킬 것이다. 또한 GMM을 이용해 혼합 분포를 각각의 단일 분포로 분해하여 CycleGAN이 데이터의 특징을 더 잘 학습하게 만들 것이며 CycleGAN에 Classifier를 추가하여 좀 더 현실적인 데이터를 만드는 오버샘플링 기법을 만들고자 한다. 본 논문에서 제안하고자하는 오버샘플링 기법을 실험하기 위해 실제 금융사기에 관한 데이터를 PCA로 변조하여 개인정보를 가린 불균형 데이터를 사용할 것이다.

      • KCI등재

        제조공정 데이터의 불균형 해소를 위한 생성적 적대 신경망 기반 가상 데이터 생성 프레임웍

        김희수(Heesoo Kim),이현수(Hyunsoo Lee) 한국지능시스템학회 2019 한국지능시스템학회논문지 Vol.29 No.1

        스마트 공장 및 제조공정의 혁신은 제조 데이터의 불균형을 가속화시키고 있으며, 이는 결함 진단 및 분석 프레임웍의 부정확성을 일으키고 있다. 본 연구에서는 이러한 제조 데이터가 가지는 불균형 문제점을 해소하기 위한 방법론으로 데이터 생성방법론인 생성적 적대 신경망 (Generative Adversary Network)을 고려한다. 생성적 적대 신경망이 가상데이터의 생성에 기여하는 동안, 실제 제조 데이터에 적용하기 위해서는 모델 붕괴 (Model Collapsing)과 같은 문제를 해소해야 한다. 모델 붕괴현상이란, 신경망에 목적함수에만 초점을 맞추어 데이터가 생성되어 각 속성값의 분포가 원래 데이터와 차이가 나는 현상을 의미한다. 본 연구에서는 생성적 적대 신경망의 기존 목적함수에서 실제와 가까운 데이터 생성을 위한 유도항을 추가하여 가상데이터를 합성하는 프레임웍을 제안한다. 생성된 가상데이터를 분류를 위한 훈련데이터로 사용함으로써, 데이터의 불균형 및 모델 붕괴현상을 동시에 해소토록 한다. 제안하는 프레임웍의 우수성을 증빙하기 위하여 불균형을 가진 실제 강판 품질 데이터를 사용하여, 기존의 여러 연구 방법론과 비교하고 분석한다. Smart manufacturing and the process innovation give result to the imbalanced manufacturing data and this tendency decreases the inaccuracy of the used manufacturing fault detection and classification frameworks. This research considers Generative Adversary Network (GAN) as a data generation method in order to overcome the imbalanced manufacturing data. While a general GAN model contributes to the generation of virtual data, several issues including the model collapsing may occur. Model collapsing is the situations that the generated data’s distribution has considerable differences with the distribution of the original data. This tendency is resulted from the objective function of a general GAN. This research proposes a new and efficient data generation framework with a modified GAN which has a correction term for decreasing gap between the generated data and the original data. The proposed method solves the data imbalance issue and the model collapsing problem simultaneously. In order to show the effectiveness of the proposed framework, the real steel plate fault data with imbalances are analyzed and the results are compared with the existing the fault detection and classification methods.

      • KCI등재

        연관성 생성을 위한 수정된 대칭적 불균형 비의 제안

        박희창(Hee-Chang Park) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.4

        Today, the emergence of big data is a revolution, and it exerts a great influence on our daily lives and across industries. One of the tools for extracting useful information from big data is a data mining technique. Among data mining techniques, the association rule is widely used in the field. In this paper, we propodsed a adjusted symmetric imbalance ratio among the null invariant measures as the criterion for association evaluation. When the results of the simulation were put together, the adjusted symmetric imbalance ratio, which is a measure proposed in this paper, indicates the direction of association, while the magnitude of the absolute value is also larger than the modified imbalance ratio and the imbalance ratio in most cases. In addition, the amount of change between the cases was larger than those of the modified imbalance ratio and the imbalance ratio. Therefore, it can be said that the adjusted symmetric imbalance ratio is a more preferable measure than the modified imbalance ratio and the imbalance ratio from the viewpoint of the association threshold. 오늘날 빅 데이터의 등장은 혁명이라고 할 만큼 우리의 일상생활과 산업 전반에 걸쳐 상당히 큰 영향력을 행사하고 있다. 이러한 빅 데이터로부터 유용한 정보를 추출하는 도구 중의 하나가 데이터 마이닝 기법이다. 데이터 마이닝 기법들 가운데서도 연관성 규칙은 현업에서 많이 활용되고 있는데, 본 논문에서는 연관성 평가 기준으로 영 불변 측도 중에서 수정된 대칭적 불균형비를 제안하였다. 수정된 대칭적 불균형 비에 대해 동시 발생 빈도와 불일치 빈도의 변화에 따라 기존의 불균형 비와 변형된 불균형 비와의 변화 양상을 비교함으로써 연관성 규칙 관점에서 측도의 유용성을 고찰하였다. 모의실험의 결과를 종합해보았을 때, 본 논문에서 제안하는 측도인 수정된 대칭적 불균형 비는 연관성의 방향을 나타내는 동시에 절대값의 크기도 대부분의 경우에 변형된 불균형 비와 불균형 비에 비해 크게 나타났으며, 각 사례들 간의 변화량도 대체적으로 변형된 불균형 비와 불균형 비에 비해 크게 나타났다. 따라서 연관성 평가 기준의 관점에서 바라볼 때 수정된 대칭적 불균형 비가 변형된 불균형 비와 불균형 비보다는 더 바람직한 측도인 것으로 결론 내릴 수 있다.

      • KCI등재

        단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법

        김종찬(Jongchan Kim),장성준(Seong Jun Chang),손원(Won Son) 한국통계학회 2024 응용통계연구 Vol.37 No.4

        텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor, kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다. Text data is usually made up of a wide variety of unique words. Even in standard text data, it is common to find tens of thousands of different words. In text data analysis, usually, each unique word is treated as a variable. Thus, text data can be regarded as a dataset with a large number of variables. On the other hand, in text data classification, we often encounter class label imbalance problems. In the cases of substantial imbalances, the performance of conventional classification models can be severely degraded. To improve the classification performance of support vector machines (SVM) for imbalanced data, algorithms such as the Synthetic Minority Over-sampling Technique (SMOTE) can be used. The SMOTE algorithm synthetically generates new observations for the minority class based on the k-Nearest Neighbors (kNN) algorithm. However, in datasets with a large number of variables, such as text data, errors may accumulate. This can potentially impact the performance of the kNN algorithm. In this study, we propose a method for enhancing prediction performance for the minority class of imbalanced text data. Our approach involves employing variable selection to generate new synthetic observations in a reduced space, thereby improving the overall classification performance of SVM.

      • KCI등재

        불균형 자료의 분류분석 방법별 성능 비교와 접근 전략 연구

        유병주(Byung Joo Yoo) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.1

        불균형 자료에 대한 분류분석을 하기 위해서는 두 가지 선택의 문제에 직면하게 된다. 하나는 분류분석을 위한 모형의 선택이고 또 다른 하나는 불균형 문제를 해결하기 위한 방법의 선택이다. 그래서 이 논문에서는 훈련표본의 규모나 독립변수의 수, 불균형 정도 등과 같은 데이터의 특징을 고려한 불균형 자료에 대한 순차적인 접근 전략 문제를 다루었다. 이를 위해 이진 분류 분석의 대표적인 모형인 로지스틱 회귀모형, 서포트벡터 머신, 딥러닝 방법을 자료의 특성에 따른 분류 성능을 비교하기 위한 이론적 고찰과 모의실험을 시행하였다. 그리고 자료의 불균형을 해결하기 위한 개선 방법들과 조합했을 때 Tukey의 다중비교를 통하여 분류 성능이 좋은 최적의 결과를 얻기 위한 접근 전략을 식별하기 위한 모의실험을 하였다. 모의실험 결과 자료의 특성중 훈련표본의 수량과 불균형 여부가 지배적인 요소로 작동되는 것을 확인할 수 있었으며, 훈련 표본이 적은 경우는 로지스틱 회귀모형으로 접근하여 과대추출 방법으로 자료의 불균형 문제를 해결하는 방법이 좋고, 훈련표본이 많은 경우는 딥러닝 방법으로 접근하여 가중치 방법이나 과소추출 방법으로 자료의 불균형을 개선하는 방법이 성능이 우수한 추정 결과를 얻을 수 있는 접근 전략임을 확인하였다. In order to perform a classification analysis on imbalanced data, we are faced with two choices. One is the selection of a model for classification analysis, and the other is the selection of a method to solve the imbalance problem. Therefore, in this paper, I dealt with the problem of sequential approach to imbalanced data, taking into account the characteristics of the data such as the size of the training sample, the number of independent variables, and the degree of imbalance. A simulation is conducted to compare the logistic regression model, support vector machine, and deep learning, which are representative models used for binary classification analysis, to compare the classification performance according to the characteristics of the data. In addition, a simulation was performed to identify the approach strategy for obtaining the optimal result with good classification performance through Tukey s multiple comparison when combined with the methods to resolve the imbalance problem. As a result of the simulation, it was confirmed that the number of acquired samples and the presence of imbalance among the characteristics of the data operate as the dominant factors. In the case of small data, the logistic regression model is the best when combine with the over-sampling method to solve the data imbalance problem. In the case of big data, it was confirmed that the deep learning is the best when combine with the weighed estimation or the under sampling method to resolve the data imbalance problem.

      • 불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델

        이재식(Jae Sik Lee),권종구(Jong Gu Kwon) 한국지능정보시스템학회 2013 한국지능정보시스템학회 학술대회논문집 Vol.2013 No.6

        어떤 클래스에 속한 레코드의 개수가 다른 클래스에 속한 레코드의 개수보다 매우 많은 경우에 이 데이터 집합을 ‘불균형 데이터 집합’이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 즉, 소수 클래스의 적중률이 다수 클래스의 적중률에 비해서 매우 낮게 나타나는 것이다. 본 연구에서는 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 모델을 개발하였다. 개발된 모델은 SVM(Support Vector Machine), 인공신경망 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델이다. 개발된 하이브리드 모델의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터를 사용하여 평가하였다. SVM 하이브리드 모델의 민감도는 95.0%이었고, 특이도는 69.2%이었다. 동일 데이터에 대한 SVM 모델의 민감도는 94.7%이었고, 특이도는 66.2%이었다. 그러므로 SVM 단일 기법만을 사용한 모델에 비해서 본 연구에서 개발된 SVM 하이브리드 모델이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 성능을 보였다.

      • KCI등재

        중첩 속성을 활용한 랜덤 언더 샘플링 기반의 공정성 개선 기법

        강대원,권준호,전종훈 한국정보과학회 2022 데이타베이스 연구 Vol.38 No.3

        As machine learning models have begin to be used in human-related fields, the fairness of models is drawing attention. Fairness problems refer to certain groups based on sensitive attributes such as gender or race receiving biased decisions in machine learning models compared to other groups. As the imbalance of the dataset has been revealed as one of the causes of the fairness problem, research on fairness related to the imbalance data is being actively conducted. Traditionally, methods for eliminating bias due to data imbalances are over sampling and under sampling techniques. However, traditional data imbalance mitigation techniques have difficulty improving the fairness of the model. Therefore, this paper proposes Random Under Sampling-Based Fairness Improvement Technique Using Overlapping Attribute. This technique finds the overlapping attribute that affect both the performance and fairness of the model among the general attribute of the data set. We then create subgroups based on eigenvalues of overlapping attribute, labels, and sensitive attribute, and mitigate data imbalances between subgroups through random under sampling. The performance of this method was evaluated through different data sets, random partitioning methods, and 10 replicates. In addition, the results of improved fairness were confirmed by using Equal Opportunity, Equalized Odds, Treatment Equality, and Demographic Parity as fairness indicators. 기계학습 모델이 사람과 관련된 분야에 활용되기 시작하면서 모델의 공정성 문제가 주목받고 있다. 공정성 문제란 성별이나 인종 같은 민감 속성(Sensitive Attribute)기반의 특정 그룹이 기계학습 모델로부터 타 그룹에 비해 편향된 결정을 받는 것을 말한다. 공정성 문제의 원인 중 하나로 데이터 셋의 불균형이 밝혀지면서 불균형 데이터 관련 공정성 연구가 활발히 진행되고 있다. 전통적으로 데이터 불균형으로 인한 편향을 제거하는 방법은 오버 샘플링(Over Sampling) 기법과 언더 샘플링(Under Sampling) 기법이 있다. 하지만 전통적인 데이터 불균형 완화 기법은 모델의 공정성 향상에 어려움이 있다. 따라서 본 논문은 중첩 속성을 활용한 언더 샘플링 기반의 공정성 개선 기법을 제안한다. 본 기법은 데이터 셋의 일반 속성 중 모델의 성능과 공정성 양쪽에 영향을 주는 중첩 속성을 구한다. 그리고 중첩 속성, 레이블, 민감 속성의 고윳값을 기준으로 서브 그룹을 만들고 랜덤 언더 샘플링을 통해 서브 그룹 간의 데이터 불균형을 완화한다. 본 기법의 성능은 다양한 데이터 셋, 임의 분할 기법과 10번의 실험을 통해 평가했다. 그리고 공정성 지표로 균등 기회, 균등 승률, 균등 대우, 인구통계 패리티를 사용하여 공정성이 향상된 결과를 확인하였다.

      • KCI등재

        불균형 시계열 자료를 위한 분류 알고리즘 적용방안: 기업 부도모형을 중심으로

        조용복,조동우,최보승 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.2

        The data used in the corporate default model is imbalanced; observation of non-default is overwhelmingly more prominent than the default case. Additionally, the data also have the characteristics of time series, i.e., the default events in the future are predicted by lagged financial statements. Therefore, We must consider the characteristics of imbalanced and time-series in the modeling process for default events. In the paper, we studied the model process with imbalance problems and model validation for time-series. We conducted empirical analysis on corporates listed on the Korea Exchange to construct a default model and compared the prediction performance by applying various machine learning classification algorithms. First, we confirmed that the problem of imbalance in train data could secure the generalization performance of the prediction model only when the oversampling method is considered. However, there is no significant difference in predicting performance between the oversampling methods. Second, we compared the k-fold cross-validation and time-series cross-validation. Moreover, we confirmed that the model could overestimate prediction performance without considering a timely manner. Thus, We confirmed the necessity of time-series cross-validation for the classification model using the time series data. 기업 부도모형에 사용되는 데이터는 정상기업이 부도기업에 비해 압도적으로 많이 관측되는 대표적인 불균형 데이터이며, 과거 및 현재의 재무변수를 사용하여 부도 사건을 예측하는 시계열 데이터의 특성을 지니고 있다. 따라서 예측모형을 구축하는데 있어 이러한 데이터의 불균형 문제와 시계열적 특성의 반영에 각별한 주의가 필요하다. 본 연구는 부도 예측모형 구축과정에서 고려해야 하는 불균형 자료 해소와 시계열 자료의 특성이 반영된 모형 검증방안에 대한 비교연구를 진행하였다. 실증분석을 위해 한국거래소에 상장된 기업을 대상으로 부도모형을 구축하였고, 모형의 예측 성능을 비교분석 하였다. 이를 통하여 첫째, 학습데이터의 불균형 문제는 oversampling기법을 고려할 때 예측모형의 일반화 성능을 확보할 수 있음을 확인하였다. 하지만, oversampling기법 간의 성능 차이는 뚜렷하게 나타나지 않았다. 둘째, 일반적으로 많이 사용하는 k-fold 교차검증과 전진교차검증을 비교한 결과 시간의 흐름에 대한 고려 없이 추정된 모형을 사용하였을 때 그 예측 성과가 과대 추정될 수 있음을 확인하였고, 이를 통해 시계열 데이터에 대한 전진교차검증의 필요성을 보였다.

      • KCI등재

        머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로

        이규남,임종태,복경수,유재수 한국콘텐츠학회 2019 한국콘텐츠학회논문지 Vol.19 No.11

        Recently, more and more attempts have been made to solve the problems faced by academia and industry through machine learning. Accordingly, various attempts are being made to solve non-general situations through machine learning, such as deviance, fraud detection and disability detection. A variety of attempts have been made to resolve the non-normal situation in which data is distributed disproportionately, generally resulting in errors. In this paper, we propose handling method of imbalance data for machine learning. The proposed method to such problem of an imbalance in data by verifying that the population distribution of major class is well extracted. Performance Evaluations have proven the proposed method to be better than the existing methods. 최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼