RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        온도와 코너 변화에 영향이 작은 차동 구조의 포락선 검출기를 활용한 60-GHz 비동기 광대역 수신기

        엄기윤,김창완 한국정보통신학회 2023 한국정보통신학회논문지 Vol.27 No.2

        최근 인공지능 기술이 발전하면서 해킹 공격을 탐지하기 위해 인공지능을 이용하려는 연구가 활발히 진행되고 있다. 하지만, 인공지능 모델 개발에 핵심인 학습데이터를 구성하는데 있어서 보안데이터가 대표적인 불균형 데이터라는 점이 큰 장애물로 인식되고 있다. 이에 본 눈문에서는 오버샘플링을 위한 데이터 추출에 딥러닝 생성 모델인 VAE를 적용하고 K-NN을 이용한 가중치 계산을 통해 클래스별 오버샘플링 개수를 설정하여 샘플링을 하는 W-VAE 오버샘플링 기법을 제안한다. 본 논문에서는 공개 네트워크 보안 데이터셋인 NSL-KDD를 통해 ROS, SMOTE, ADASYN 등 총 5가지 오버샘플링 기법을 적용하였으며 본 논문에서 제안한 오버샘플링 기법이 F1-Score 평가지표를 통해 기존 오버샘플링 기법과 비교하여 가장 효과적인 샘플링 기법임을 증명하였다.

      • KCI등재

        불균형 데이터에 대한 오버샘플링 효과 연구

        정현승,강창완,김규곤 한국자료분석학회 2008 Journal of the Korean Data Analysis Society Vol.10 No.4

        In data mining process, it is necessary for prediction modelling to sample data from the large dataset. However, when the particular events of interest are quite rare in the dataset, their consequences can be quite dramatic and quite often in a negative sense. That is, standard data mining schemes do not work well for rare class analysis. In this case, oversampling method is recommanded by many dataminers to solve these problems. In this paper, we study the effects of oversampling method and suggest the good rule of oversampling rate. Simulation results show that the optimal oversampling rate ranges from 1:2 to 1:3. This results will be helpful for the dataminers. 대용량 데이터로부터 의미있는 지식을 발견하는 마이닝 과정에서 모형구축을 위한 표본추출은 필수적이라 할 수 있다. 그러나 목표변수가 단지 두 가지의 결과만을 가지고 있고 관심 범주의 사례 수가 드물게 발생하는 경우가 있다. 이와 같이 전체 모집단에서의 목표변수의 관심 사례 집단의 비율이 매우 적은 경우에는 일반적으로 단순임의추출법이 아닌 오버샘플링 방법이 자료분석가들에게 추천되고 있다. 본 연구에서는 이러한 오버샘플링의 활용 지침을 위하여 사례집단의 비율에 따른 오버샘플링 효과를 분석하였으며 모의실험 결과는 다음과 같았다. 즉, 모집단에서의 사례집단과 대조집단의 불균형 비율이 1:5를 넘어서는 경우 오버샘플링 방법을 사용하는 것이 효과적이고 오버샘플링의 비율은 1:2와 1:3의 사이에서 가장 효과적인 결과를 도출 할 수 있는 것으로 연구되었다.

      • KCI등재

        불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법

        노정담,최병구 한국경영정보학회 2022 Information systems review Vol.24 No.4

        이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

      • KCI등재
      • KCI등재

        데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율

        신승수,조휘연,김용혁 한국융합학회 2021 한국융합학회논문지 Vol.12 No.1

        최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가 시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카 드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다. Recently, with the development of database, it is possible to store a lot of data generated in finance, security, and networks. These data are being analyzed through classifiers based on machine learning. The main problem at this time is data imbalance. When we train imbalanced data, it may happen that classification accuracy is degraded due to over-fitting with majority class data. To overcome the problem of data imbalance, oversampling strategy that increases the quantity of data of minority class data is widely used. It requires to tuning process about suitable method and parameters for data distribution. To improve the process, In this study, we propose a strategy to explore and optimize oversampling combinations and ratio based on various methods such as synthetic minority oversampling technique and generative adversarial networks through genetic algorithms. After sampling credit card fraud detection which is a representative case of data imbalance, with the proposed strategy and single oversampling strategies, we compare the performance of trained classifiers with each data. As a result, a strategy that is optimized by exploring for ratio of each method with genetic algorithms was superior to previous strategies.

      • KCI등재

        불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법

        손민재,정승원,황인준 한국정보처리학회 2019 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.8 No.7

        분류 문제는 주어진 입력 데이터에 대해 해당 데이터의 클래스를 예측하는 문제로, 자주 쓰이는 방법 중의 하나는 주어진 데이터셋을 사용하여 기계학습 알고리즘을 학습시키는 것이다. 이런 경우 분류하고자 하는 클래스에 따른 데이터의 분포가 균일한 데이터셋이 이상적이지만, 불균형한 분포를 가지고 경우 제대로 분류하지 못하는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 Generative Adversarial Networks(GAN)에서 파생된 생성 모델로, 데이터의 특징을 학습하여 실제 데이터와 유사한 데이터를 생성할 수 있다. 따라서 CGAN이 데이터 수가 적은 클래스의 데이터를 학습하고 생성함으로써 불균형한 클래스 비율을 맞추어 줄 수 있으며, 그에 따라 분류 성능을 높일 수 있다. 실제 수집된 데이터를 이용한 실험을 통해 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다. Classification problem is to predict the class to which an input data belongs. One of the most popular methods to do this is training a machine learning algorithm using the given dataset. In this case, the dataset should have a well-balanced class distribution for the best performance. However, when the dataset has an imbalanced class distribution, its classification performance could be very poor. To overcome this problem, we propose an over-sampling scheme that balances the number of data by using Conditional Generative Adversarial Networks (CGAN). CGAN is a generative model developed from Generative Adversarial Networks (GAN), which can learn data characteristics and generate data that is similar to real data. Therefore, CGAN can generate data of a class which has a small number of data so that the problem induced by imbalanced class distribution can be mitigated, and classification performance can be improved. Experiments using actual collected data show that the over-sampling technique using CGAN is effective and that it is superior to existing over-sampling techniques.

      • KCI등재

        이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교

        박근우,정인경 한국통계학회 2019 응용통계연구 Vol.32 No.3

        A class imbalance problem arises when one class outnumbers the other class by a large proportion in binary data. Studies such as transforming the learning data have been conducted to solve this imbalance problem. In this study, we compared resampling methods among methods to deal with an imbalance in the classification problem. We sought to find a way to more effectively detect the minority class in the data. Through simulation, a total of 20 methods of over-sampling, under-sampling, and combined method of over- and under-sampling were compared. The logistic regression, support vector machine, and random forest models, which are commonly used in classification problems, were used as classifiers. The simulation results showed that the random under sampling (RUS) method had the highest sensitivity with an accuracy over 0.5. The next most sensitive method was an over-sampling adaptive synthetic sampling approach. This revealed that the RUS method was suitable for finding minority class values. The results of applying to some real data sets were similar to those of the simulation. 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다.이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

      • CycleGAN을 이용한 편향 테이블 데이터 (Imbalanced Table Data) 오버샘플링 (Oversampling) 문제 해결 방안에 대한 연구 : 금융사기를 중심으로

        노정담,최병구 한국경영정보학회 2019 한국경영정보학회 학술대회논문집 Vol.2019 No.11

        현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 통계 기법 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델 중 CycleGAN을 정형 데이터에 맞게 변형시킬 것이다. 또한 GMM을 이용해 혼합 분포를 각각의 단일 분포로 분해하여 CycleGAN이 데이터의 특징을 더 잘 학습하게 만들 것이며 CycleGAN에 Classifier를 추가하여 좀 더 현실적인 데이터를 만드는 오버샘플링 기법을 만들고자 한다. 본 논문에서 제안하고자하는 오버샘플링 기법을 실험하기 위해 실제 금융사기에 관한 데이터를 PCA로 변조하여 개인정보를 가린 불균형 데이터를 사용할 것이다.

      • KCI등재

        효율적인 네트워크 이상 탐지를 위한 차원축소 및 오버샘플링 방법 비교

        윤지은,김강석 한국디지털콘텐츠학회 2023 한국디지털콘텐츠학회논문지 Vol.24 No.3

        In this paper, dimensionality reduction and oversampling methods are compared for efficient network anomaly detection, analyzing the effects of oversampling and dimensionality reduction on various classification algorithms. Oversampling was evaluated using classification performance evaluation indicators, and the dimensionality reduction effect was evaluated using the processing speed per unit sample as an indicator. As a result of the experiments, the models benefiting the most from dimensionality reduction were KNN and SVM displaying a significant reduction in processing time. However, when dimensionality was reduced to two dimensions, processing time increased. When oversampling was applied, it was confirmed that the recall and F1 scores of the minority classes U2R and R2L increased overall, confirming that oversampling had a significant effect on the detection of a minority class attack. 본 논문에서는 효율적인 네트워크 이상 탐지를 위한 차원 축소 및 오버 샘플링 방법을 비교한다. 다양한 분류 알고리즘들에 오버 샘플링과 차원 축소가 어떠한 영향을 미치는지 분석한다. 오버 샘플링의 평가는 분류 성능 평가 지표들을 사용하여야 하며, 차원 축소 영향의 평가는 단위 샘플 당 처리 속도를 지표로 사용한다. 실험 결과 차원 축소로 가장 눈에 띄게 처리 시간이 줄어든 모델은 KNN과 SVM이었다. 하지만 2차원으로 축소했을 땐 오히려 증가하였다. 오버 샘플링을 적용했을 땐 소수 클래스인 U2R과 R2L의 재현율과 F1 점수가 전반적으로 상승하여, 오버 샘플링은 소수의 공격 클래스 탐지에 유의미한 영향을 준다는 것을 확인하였다.

      • KCI등재

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼