http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
제조공정 데이터의 불균형 해소를 위한 생성적 적대 신경망 기반 가상 데이터 생성 프레임웍
김희수(Heesoo Kim),이현수(Hyunsoo Lee) 한국지능시스템학회 2019 한국지능시스템학회논문지 Vol.29 No.1
스마트 공장 및 제조공정의 혁신은 제조 데이터의 불균형을 가속화시키고 있으며, 이는 결함 진단 및 분석 프레임웍의 부정확성을 일으키고 있다. 본 연구에서는 이러한 제조 데이터가 가지는 불균형 문제점을 해소하기 위한 방법론으로 데이터 생성방법론인 생성적 적대 신경망 (Generative Adversary Network)을 고려한다. 생성적 적대 신경망이 가상데이터의 생성에 기여하는 동안, 실제 제조 데이터에 적용하기 위해서는 모델 붕괴 (Model Collapsing)과 같은 문제를 해소해야 한다. 모델 붕괴현상이란, 신경망에 목적함수에만 초점을 맞추어 데이터가 생성되어 각 속성값의 분포가 원래 데이터와 차이가 나는 현상을 의미한다. 본 연구에서는 생성적 적대 신경망의 기존 목적함수에서 실제와 가까운 데이터 생성을 위한 유도항을 추가하여 가상데이터를 합성하는 프레임웍을 제안한다. 생성된 가상데이터를 분류를 위한 훈련데이터로 사용함으로써, 데이터의 불균형 및 모델 붕괴현상을 동시에 해소토록 한다. 제안하는 프레임웍의 우수성을 증빙하기 위하여 불균형을 가진 실제 강판 품질 데이터를 사용하여, 기존의 여러 연구 방법론과 비교하고 분석한다. Smart manufacturing and the process innovation give result to the imbalanced manufacturing data and this tendency decreases the inaccuracy of the used manufacturing fault detection and classification frameworks. This research considers Generative Adversary Network (GAN) as a data generation method in order to overcome the imbalanced manufacturing data. While a general GAN model contributes to the generation of virtual data, several issues including the model collapsing may occur. Model collapsing is the situations that the generated data’s distribution has considerable differences with the distribution of the original data. This tendency is resulted from the objective function of a general GAN. This research proposes a new and efficient data generation framework with a modified GAN which has a correction term for decreasing gap between the generated data and the original data. The proposed method solves the data imbalance issue and the model collapsing problem simultaneously. In order to show the effectiveness of the proposed framework, the real steel plate fault data with imbalances are analyzed and the results are compared with the existing the fault detection and classification methods.
CycleGAN을 이용한 편향 테이블 데이터 (Imbalanced Table Data) 오버샘플링 (Oversampling) 문제 해결 방안에 대한 연구 : 금융사기를 중심으로
노정담,최병구 한국경영정보학회 2019 한국경영정보학회 학술대회논문집 Vol.2019 No.11
현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 통계 기법 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델 중 CycleGAN을 정형 데이터에 맞게 변형시킬 것이다. 또한 GMM을 이용해 혼합 분포를 각각의 단일 분포로 분해하여 CycleGAN이 데이터의 특징을 더 잘 학습하게 만들 것이며 CycleGAN에 Classifier를 추가하여 좀 더 현실적인 데이터를 만드는 오버샘플링 기법을 만들고자 한다. 본 논문에서 제안하고자하는 오버샘플링 기법을 실험하기 위해 실제 금융사기에 관한 데이터를 PCA로 변조하여 개인정보를 가린 불균형 데이터를 사용할 것이다.
교통신호등 이미지 인식 성능을 개선하기 위한 데이터 불균형 완화 및 증강 최적화
김민석,류승기 한국ITS학회 2025 한국ITS학회논문지 Vol.24 No.2
자율주행차는 차량 영상 센서를 이용해 다양한 교통신호등을 인식해야 한다. 교통신호등은 보행자, 버스, 차량용 신호 표시를 표출하고 있어 도로 환경에서의 시각적 이미지 데이터를 다 양하게 만들 수 있다. 본 논문에서는 14종의 교통신호등 표시를 갖는 26,864장의 원천 데이터 셋을 사용했고, 원천 데이터는 도로를 주행하는 상황의 운전자 시선 관점에서 교통신호등과 배경을 포함한 FHD 데이터이다. 원천 데이터셋은 14종의 클래스 유형을 가지며 도로 주행 환 경에서 다양한 배경과 인스턴스를 포함한다. 원천 데이터셋은 클래스별 데이터 편향성을 포함 하고 있으므로 본 연구에서는 데이터 불균형성을 분석하고, 데이터를 최적으로 증강한 후 원 천 데이터와 증강 데이터의 교통신호등 인식 성능을 비교했다. 이때 실험에 사용한 학습 모델 은 YOLOv11이고, 데이터 증강 데이터로 학습한 교통신호등 인식 모델의 성능은 원천 데이터 셋 보다 향상된 0.973의 결과를 얻었다. 본 논문에서는 교통신호등 인식 성능 향상을 위해 데이 터 불균형 분석과 데이터 증강 최적화 방법을 제안하였다. Autonomous vehicles rely on onboard vision sensors to recognize various traffic signals for pedestrians, buses, and vehicles, contributing to diverse visual data in road environments. This study utilizes a dataset of 26,864 images containing 14 types of traffic signal displays. The raw dataset consists of Full HD images captured from a driver’s perspective, including both traffic signals and background elements in real driving scenarios. Since the dataset exhibits class imbalance, this study analyzes the imbalance, applies optimal data augmentation techniques, and compares traffic signal recognition performance between the raw and augmentated datasets. The YOLOv11 model was used for training, and the model trained with augmented data achieved an improved recognition performance of 0.973. This study proposes data imbalance analysis and optimized data augmentation methods to enhance traffic signal recognition performance.
검증데이터 기반의 차별화된 이상데이터 처리를 통한 데이터 불균형 해소 방법
황철현 한국지능정보시스템학회 2022 지능정보연구 Vol.28 No.4
데이터 불균형은 한 분류의 데이터 수가 다른 분류에 비해 지나치게 크거나 작은 현상을 의미하며. 이로 인해 분류 알고리즘을 활용하는 기계학습에서 성능을 저하시키는 주요 요인으로 제기되고 있다. 데이터 불균형 문제 해결을 위해서 소수 분포 데이터를 증폭하는 다양한 오버 샘플링(Over Sampling) 방법들이 제안되고 있다. 이 가운데 SMOTE는 가장 대표 적인 방법으로 소수 분포 데이터의 증폭 효과를 극대화하기 위해 데이터에 포함된 잡음을 제거(SMOTE-IPF)하거나, 경계 선만을 강화(Borderline SMOTE) 시키는 다양한 방법들이 출현하였다. 이 논문은 소수분류 데이터를 증폭하는 전통적인 SMOTE 방법에서 이상데이터(Anomaly Data)에 대한 처리방법개선을 통해 궁극적으로 분류성능을 높이는 방법을 제안한다. 제안 방법은 실험을 통해 기존 방법에 비해 상대적으로 높은 분류성능을 일관성 있게 제시하였다.
데이터 증강 방법을 이용한 정상데이터 기반 베어링 이상 진단법
배재웅(Jaewoong Bae),정원호(Wonho Jung),박용화(Yonghwa Park) 대한기계학회 2021 대한기계학회 춘추학술대회 Vol.2021 No.4
최근 데이터 불균형 문제를 해결하기 위해 고장데이터 증대 연구가 활발하다. 하지만 분포 학습기반 고장데이터 증대 기법은 데이터 특성에 따라 크게 변해 고장 진단 방법론에 적용이 어렵다. 본 연구에서는 고장 데이터 없이 정상 데이터 기반 베어링 이상 진단 기법을 제안한다. 제안된 방법은 세 단계로 구성된다: (1) 정상데이터 기반 데이터 증강, (2) 컨볼루션 신경망 기반 특성인자 추출, 그리고 (3) 이상 기준치 설계. 정상데이터 기반 데이터 증강 방법은 데이터 특성에 맞춰 노이즈 추가, 진폭 변조 등을 활용한다. 특성인자 추출을 위해 ResNet 을 이용하여 정상데이터 특성인자를 추출한다. 마지막으로 추출된 특성인자를 이용하여 정상데이터와 이상데이터 간의 거리를 계산하여 이상 기준치를 선정한다. CWRU 베어링 결함 데이터셋을 이용하여 제안된 방법을 검증하였고 약 95% 이상 진단 정확도를 보였다. 본 연구는 정상데이터만을 이용하여 데이터 불균형 환경 속에서도 이상 진단이 가능함을 보였다. A research on data augmentation has been actively conducted to solve the data imbalance problem. However, data distribution learning based data augmentation method is difficult to apply to fault diagnosis methodology because fault data distribution varies under the characteristics of their dataset. This paper proposes ball bearing anomaly detection method based on normal data only. The proposed method consists of three stages: (1) data augmentation based using normal data, (2) feature extraction using convolutional neural networks, and (3) design anomality threshold. The normal data-based augmentation method utilizes adding noise, amplitude variation under consideration of the data characteristics. ResNet architecture is used for feature extraction. Finally, anomality threshold is selected by calculating the distance between normal data and abnormal data. The proposed method was verified using the CWRU bearing dataset and presented a diagnostic accuracy of about 95%. This study expects that it is possible to diagnose abnormalities even in a data imbalance using only normal data.
데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율
신승수,조휘연,김용혁 한국융합학회 2021 한국융합학회논문지 Vol.12 No.1
최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가 시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카 드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다. Recently, with the development of database, it is possible to store a lot of data generated in finance, security, and networks. These data are being analyzed through classifiers based on machine learning. The main problem at this time is data imbalance. When we train imbalanced data, it may happen that classification accuracy is degraded due to over-fitting with majority class data. To overcome the problem of data imbalance, oversampling strategy that increases the quantity of data of minority class data is widely used. It requires to tuning process about suitable method and parameters for data distribution. To improve the process, In this study, we propose a strategy to explore and optimize oversampling combinations and ratio based on various methods such as synthetic minority oversampling technique and generative adversarial networks through genetic algorithms. After sampling credit card fraud detection which is a representative case of data imbalance, with the proposed strategy and single oversampling strategies, we compare the performance of trained classifiers with each data. As a result, a strategy that is optimized by exploring for ratio of each method with genetic algorithms was superior to previous strategies.
불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델
이재식(Jae Sik Lee),권종구(Jong Gu Kwon) 한국지능정보시스템학회 2013 한국지능정보시스템학회 학술대회논문집 Vol.2013 No.6
어떤 클래스에 속한 레코드의 개수가 다른 클래스에 속한 레코드의 개수보다 매우 많은 경우에 이 데이터 집합을 ‘불균형 데이터 집합’이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 즉, 소수 클래스의 적중률이 다수 클래스의 적중률에 비해서 매우 낮게 나타나는 것이다. 본 연구에서는 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 모델을 개발하였다. 개발된 모델은 SVM(Support Vector Machine), 인공신경망 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델이다. 개발된 하이브리드 모델의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터를 사용하여 평가하였다. SVM 하이브리드 모델의 민감도는 95.0%이었고, 특이도는 69.2%이었다. 동일 데이터에 대한 SVM 모델의 민감도는 94.7%이었고, 특이도는 66.2%이었다. 그러므로 SVM 단일 기법만을 사용한 모델에 비해서 본 연구에서 개발된 SVM 하이브리드 모델이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 성능을 보였다.
불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법
김경민(Kyung Min Kim),장하영(Ha Young Jang),장병탁(Byoung Tak Zhang) 한국정보과학회 2014 정보과학회 컴퓨팅의 실제 논문지 Vol.20 No.10
필기체 낱글자 인식을 위해서 사용되는 데이터는 일반적으로 다수의 사용자들로부터 수집된 자연언어 문장들을 이용하기 때문에 해당 언어의 언어적 특성에 따라서 낱글자의 종류별 개수 차이가 매우 큰 특징이 있다. 일반적인 기계학습 문제에서 학습데이터의 불균형 문제는 성능을 저하시키는 중요한 요인으로 작용하지만, 필기체 인식에서는 데이터 자체의 높은 분산과 비슷한 모양의 낱글자 등이 성능 저하의 주요인이라 생각하기 때문에 이를 크게 고려하지 않고 있다. 본 논문에서는 이러한 데이터의 불균형문제를 고려하여 필기체 인식기의 성능을 향상시킬 수 있는 과표본화 기반의 앙상블 학습 기법을 제안한다. 제안한 방법은 데이터의 불균형 문제를 고려하지 않은 방법보다 전체적으로 향상된 성능을 보일 뿐만 아니라 데이터의 개수가 부족한 낱글자들의 분류성능에 있어서도 향상된 결과를 보여준다. Handwritten character recognition data is usually imbalanced because it is collected from the natural language sentences written by different writers. The imbalanced data can cause seriously negative effect on the performance of most of machine learning algorithms. But this problem is typically ignored in handwritten character recognition, because it is considered that most of difficulties in handwritten character recognition is caused by the high variance in data set and similar shapes between characters. We propose the oversampling based ensemble learning methods to solve imbalanced data problem in handwritten character recognition and to improve the recognition accuracy. Also we show that proposed method achieved improvements in recognition accuracy of minor classes as well as overall recognition accuracy empirically.
중첩 속성을 활용한 랜덤 언더 샘플링 기반의 공정성 개선 기법
강대원,권준호,전종훈 한국정보과학회 2022 데이타베이스 연구 Vol.38 No.3
As machine learning models have begin to be used in human-related fields, the fairness of models is drawing attention. Fairness problems refer to certain groups based on sensitive attributes such as gender or race receiving biased decisions in machine learning models compared to other groups. As the imbalance of the dataset has been revealed as one of the causes of the fairness problem, research on fairness related to the imbalance data is being actively conducted. Traditionally, methods for eliminating bias due to data imbalances are over sampling and under sampling techniques. However, traditional data imbalance mitigation techniques have difficulty improving the fairness of the model. Therefore, this paper proposes Random Under Sampling-Based Fairness Improvement Technique Using Overlapping Attribute. This technique finds the overlapping attribute that affect both the performance and fairness of the model among the general attribute of the data set. We then create subgroups based on eigenvalues of overlapping attribute, labels, and sensitive attribute, and mitigate data imbalances between subgroups through random under sampling. The performance of this method was evaluated through different data sets, random partitioning methods, and 10 replicates. In addition, the results of improved fairness were confirmed by using Equal Opportunity, Equalized Odds, Treatment Equality, and Demographic Parity as fairness indicators. 기계학습 모델이 사람과 관련된 분야에 활용되기 시작하면서 모델의 공정성 문제가 주목받고 있다. 공정성 문제란 성별이나 인종 같은 민감 속성(Sensitive Attribute)기반의 특정 그룹이 기계학습 모델로부터 타 그룹에 비해 편향된 결정을 받는 것을 말한다. 공정성 문제의 원인 중 하나로 데이터 셋의 불균형이 밝혀지면서 불균형 데이터 관련 공정성 연구가 활발히 진행되고 있다. 전통적으로 데이터 불균형으로 인한 편향을 제거하는 방법은 오버 샘플링(Over Sampling) 기법과 언더 샘플링(Under Sampling) 기법이 있다. 하지만 전통적인 데이터 불균형 완화 기법은 모델의 공정성 향상에 어려움이 있다. 따라서 본 논문은 중첩 속성을 활용한 언더 샘플링 기반의 공정성 개선 기법을 제안한다. 본 기법은 데이터 셋의 일반 속성 중 모델의 성능과 공정성 양쪽에 영향을 주는 중첩 속성을 구한다. 그리고 중첩 속성, 레이블, 민감 속성의 고윳값을 기준으로 서브 그룹을 만들고 랜덤 언더 샘플링을 통해 서브 그룹 간의 데이터 불균형을 완화한다. 본 기법의 성능은 다양한 데이터 셋, 임의 분할 기법과 10번의 실험을 통해 평가했다. 그리고 공정성 지표로 균등 기회, 균등 승률, 균등 대우, 인구통계 패리티를 사용하여 공정성이 향상된 결과를 확인하였다.
데이터 불균형을 고려한 손실함수 적용 수변구역 토지피복 분류 AI 성능 비교 분석
정봉석 ( Bongseok Jeong ),이선민 ( Sunmin Lee ),이명진 ( Moung Jin Lee ) 대한원격탐사학회 2025 대한원격탐사학회지 Vol.41 No.2
수중 환경 및 생태계는 수변의 land use and land cover (LULC)에 많은 영향을 받는다. 최근 인간활동의 증가에 따라 LULC의 지속적으로 변화되고 있고, 변화된 LULC에 의해 수중 환경이 받게되는 영향도 변화되고 있다. 수중 환경의 변화를 사전적으로 대응하기 위해서는 수변의 LULC 변화를 지속적으로 모니터링 하는 것이 중요하다. 과거에는 현장조사 중심으로 LULC 모니터링을 수행했지만, 현장조사는 넓은 대상지역을 조사하기에는 시간적 비용적 한계가 명확하다. 원격탐사 기법은 광범위한 지역에 대한 정보 제공에 용이하여 현장조사 기법의 대안으로 활용되었고, 딥러닝 등 artificial intelligence (AI) 기법과 결합하여 면 단위의 LULC 모니터링 가능하게 했다. 원격탐사 및 AI 기반 LULC 모니터링의 정확도는 모델의 성능에 의존하여 높은 성능의 모델을 학습하는 것이 중요하다. 하지만, 실제 환경에서 LULC는 각 항목의 수가 균등하지 않은 데이터 불균형이 존재한다. 데이터 불균형은 모델의 성능을 감소시키고, 결국 LULC 모니터링의 정확도 감소로 이어진다. 본 연구에서는 데이터 불균형을 고려하는 손실함수를 적용하여 대한민국의 낙동강 본류 유역을 대상으로 U-Net 모델 기반 수변 LULC 분류 알고리즘을 학습했다. Combo loss, Focal loss, Dice loss 및 Tversky loss 등 데이터 불균형을 고려하는 손실함수는 불균형을 고려하지 않는 sparse categorical cross entropy (SCCE) loss와 비교하여 성능을 평가했다. 모델 성능 평가 결과, Combo loss를 적용한U-Net 모델이 가장 높은 성능(F-1 score = 0.8529, intersection over union [IoU]=0.7519)을 보였고, Tversky loss를 적용한 U-Net 모델도 SCCE loss를 적용한 U-Net 모델의 성능(F-1 score = 0.8375, IoU=0.7296)보다 높은 성능(F-1 score = 0.8426, IoU=0.7357)을 보였다. 하지만 Focal loss 및 Dice loss를 적용한 U-Net 모델들은 SCCE loss를 적용한 U-Net 모델보다 낮은 성능을 보였다. 소수 항목에 대해서는 Focal loss 및 Dice loss를 적용한 U-Net 모델의 성능이 더 높았지만, 다수 항목에서의 성능 저하가 원인으로 판단됨으로 소수항목에 대한 가중치 최적화가 필요하다. Combo 및 Tversky loss 기반 데이터 불균형 해결은 모델 성능 향상으로 이어졌고, 이는 정확한 수변 LULC 모니터링으로 연계될 것으로 기대된다. Aquatic environments and ecosystems are significantly influenced by riparian land use and land cover (LULC) patterns. With the continuous increase in human activities, LULC patterns are undergoing constant transformation, subsequently altering their impacts on aquatic environments. To proactively respond to changes in aquatic environments, continuous monitoring of riparian LULC changes is essential. Historically, LULC monitoring has been conducted primarily through field surveys, which present clear temporal and financial limitations when investigating extensive areas. Remote sensing techniques have emerged as viable alternatives to field surveys due to their capacity to provide information across broad geographical regions. When integrated with artificial intelligence technologies such as deep learning, these techniques enable area-based LULC monitoring. The accuracy of remote sensing and artificial intelligence (AI)-based LULC monitoring depends heavily on the performance of trained models, highlighting the importance of developing high-performance models. However, in real-world environments, LULC data often exhibits class imbalance, with unequal representation across categories. This data imbalance diminishes model performance, ultimately reducing the accuracy of LULC monitoring. In this study, we developed a U-Net-based riparian LULC classification algorithm for the main Nakdong River basin in South Korea, implementing loss functions that account for data imbalance. We evaluated the performance of various imbalance-addressing loss functions―Combo loss, Focal loss, Dice loss, and Tversky loss― against the standard sparse categorical cross-entropy (SCCE) loss that does not address imbalance. Performance evaluation revealed that the U-Net model incorporating Combo loss demonstrated the highest performance (F-1 score = 0.8529, intersection over union [IoU]=0.7519), while the U-Net model with Tversky loss (F-1 score = 0.8426, IoU=0.7357) also outperformed the model using SCCE loss (F-1 score = 0.8375, IoU=0.7296). However, U-Net models employing Focal loss and Dice loss showed inferior performance compared to the SCCE loss model. While models using Focal loss and Dice loss exhibited higher performance for minority classes, their overall performance deterioration was attributed to decreased accuracy in majority classes, indicating the need for optimizing class weights for minority categories. The implementation of Combo and Tversky loss functions for addressing data imbalance resulted in enhanced model performance, which is expected to lead to more accurate riparian LULC monitoring.