http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
시계열 분류 모델의 성능 향상을 위한 시계열 데이터 증강 및 대조 학습 기반 사전 훈련 기법
김수희,이기용 한국정보과학회 2022 정보과학회 컴퓨팅의 실제 논문지 Vol.28 No.11
Recently, as time series classification using deep learning has been actively studied, securing large amounts of data is becoming more important. However, securing a large amount of time series data in which labels exist is often difficult. Therefore, in this paper, we proposed an effective data augmentation and contrastive learning-based pre-training technique to improve the performance of time series classification models. The proposed time series data augmentation technique can create new data of different lengths while maintaining the measurement interval and characteristics of the original time series data. In addition, the proposed pre-training technique for time series classification models can improve the performance of the time series classification model. Using the time series data generated by the proposed augmentation technique, it can pre-train the time series classification model to distinguish similar and dissimilar time series data. As a result of applying the proposed time series data augmentation and the pre-training technique to user activity recognition model, the accuracy of the model was improved by up to 18%p. 최근 딥러닝을 이용한 시계열 데이터 분류가 활발히 연구되면서 대량의 데이터 확보가 더욱 중요해지고 있다. 하지만 레이블(label)이 존재하는 시계열 데이터를 대량으로 확보하는 것은 많은 경우 쉽지 않은 일이다. 따라서 본 논문은 시계열 분류 모델의 성능을 향상시키기 위한 시계열 데이터의 효과적인 데이터 증강 기법과 그를 이용한 대조 학습 기반 사전 훈련 기법을 제안한다. 제안하는 시계열 데이터 증강 기법은 원 시계열 데이터의 측정 간격 및 특성을 유지하면서 길이가 다른 새로운 데이터를 생성한다. 또한 제안하는 시계열 분류 모델 사전 훈련 기법은 제안 증강 기법으로 생성된 시계열 데이터를 활용하여 시계열 분류 모델이 유사한 시계열 데이터와 유사하지 않은 시계열 데이터를 구분할 수 있도록 학습시킴으로써 시계열 분류 모델의 성능을 향상시킨다. 제안하는 시계열 데이터 증강 기법 및 사전 훈련 기법을 사용자 행동 분류 모델에 적용한 결과 모델의 정확도를 최대 18%p 향상시킴을 확인하였다.
김민수,김철환,김응모,Kim, Min-Su,Kim, Cheol-Hwan,Kim, Eung-Mo 한국정보처리학회 2002 정보처리학회논문지D Vol.9 No.2
대용량의 데이터들로부터 사용자가 인하는 데이터를 찾기 위하여 많은 데이터 마이닝 기술들이 연구되어 실제 응용프로그램에서 많이 적용되고 있다. 이러한 데이터 마이닝 기술들은 시계열 데이터를 이용하는 경우보다 트랜잭션 데이터를 이용하여 유용한 정보를 찾는 경우에 초점이 맞춰져 있다. 본 논문에서는 시계열 데이터를 트랜잭션 데이터로 변환하는 접근방법을 소개한다. 가상 트랜잭션은 서로 상대적으로 근접한 시간에 발생하는 이벤트의 집합이라고 정의하며, 가상 트랜잭션 생성기는 가상 트랜잭션을 생성시 시간윈도우와 이벤트 윈도우 방법을 사용한다. 본 논문의 접근 방법을 사용하여 기존의 트랜잭션 데이터를 이용하는 많은 데이터 마이닝 알고리즘들을 수정 없이 시계열 데이터에 적용하여 유용한 정보를 찾을 수 있다. There has been much research on data mining techniques for applying more advanced applications. However, most of those techniques has focused on transaction data rather than time series data. In this paper, we introduce a approach to convert time series data into virtual transaction data for more useful data mining applications. A virtual transaction is defined to be a collection of events that occur relatively close to each other. A virtual transaction generator uses time window or event window methods. Our approach based on time series data can be used with most conventional transaction algorithms without further modification.
이지훈(Jihoon Lee),문재원(Jaewon Moon),황지수(Jisoo Hwang) 한국방송·미디어공학회 2022 한국방송미디어공학회 학술발표대회 논문집 Vol.2022 No.6
IoT 기기의 보급 및 확산으로 많은 산업군에서 이를 바탕으로 시계열 데이터를 획득하고 분석하려는 시도가 확대되고 있다. 시간의 흐름에 따라 저장된 데이터들은 주기에 따라 특정 패턴을 갖는 경우가 많으며 이러한 패턴을 파악한다면 주요 산업군의 의사 결정에 도움이 된다. 그러나 IoT 기기의 수집 오류 및 네트워크 환경에 의해 대부분의 시계열 데이터들은 누락 데이터, 이상 데이터를 갖고 있으며 이를 처리하지 않고 분석할 경우 오히려 잘못된 결과를 초래한다. 본 논문에서는 패턴 파악을 위해 ‘시간, 일, 주, 월, 년’ 등 시간의 주기를 기준으로 데이터를 분할하며 이에 기반하여 데이터셋을 재구성하고 활용 가능한 데이터와 불가능한 데이터로 구분한다. 선별된 데이터셋은 클러스터링에 적용하였으며, 제안하는 방법을 적용할 경우 주기를 갖는 시계열 데이터를 활용하는 분석 및 학습에서 더 나은 결과를 보임을 확인하였다.
교차 어텐션 신경망을 이용한 강수 유무 예측 및 유효 데이터 도출
박선배,유도식 한국지능시스템학회 2024 한국지능시스템학회논문지 Vol.34 No.1
Time series data processing is a field that uses the time series correlation of datafor predicting and analyzing current and future situations, and research is beingconducted in various fields. Recently, research in the field of feature selection whichderive valid data from a large amount of data and filter unnecessary data has beencontinuously conducted. In this paper, we propose ‘cross attention neural network’designed based on the attention submodule of the transformer neural network fortime series prediction and derive valid data. The proposed algorithm is a neuralnetwork that calculates the attention of the main and auxiliary time series and thenperform time series prediction based on this attention table. Further, the proposedalgorithm can efficiently derive valid data by that learning with the whole data,then comparing the output values of whole data with the output values of inputtingpartial data. Through a simulation predicting the presence or absence ofprecipitation using weather dataset, the prediction performance of the proposedalgorithm is compared and verified with the prediction performance of LSTM. Andthen, we show that performance is maintained for the results of whole data usingwhile reducing input data by the deriving method for valid data. 시계열 데이터 처리는 데이터의 시계열성을 이용하여 현재, 미래의 상황을 예측 및 분석하는분야로 다양한 분야에서 연구가 진행되고 있다. 최근에는 딥러닝을 이용한 시계열 데이터처리 연구가 활발히 진행되고 있다. 최근에는 수많은 데이터들 중 유효한 데이터를 도출하는 특징선택 분야에 대한 연구도 꾸준히 진행되고 있다. 본 논문에서는 시계열 예측과 유효데이터 도출을 위하여 트랜스포머 신경망의 어텐션 서브모듈을 기반으로 설계한 ‘교차 어텐션 신경망’을 제안한다. 제안하는 알고리즘은 주 시계열과 보조 시계열의 어텐션을 연산한 뒤, 시계열 예측을 진행하는 신경망이다. 또한 제안하는 알고리즘은 전체 데이터로 학습한 뒤, 일부 데이터 입력시의 출력값과 비교하여 유효 데이터를 효율적으로 도출할 수 있다. 강수 유무를 예측하는 시뮬레이션을 통해 제안하는 알고리즘의 예측성능을 LSTM의 예측성능과 비교 검증하고, 유효 데이터 도출을 통해 입력 데이터를 줄이면서도 성능을 유지하는것을 보인다.
시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭을 위한 시각화 툴
이성진(Sung-Jin Lee),이진수(Jinsoo Lee),조훈(Hune Cho),한욱신(Wook-Shin Han) 한국정보과학회 2011 정보과학회논문지 : 데이타베이스 Vol.38 No.2
시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다. Time-series data are sequences of real numbers, sampling a sequential data into the fixed time intervals. Common examples of time-series data are the music data, video data, electroncardiogram data, and the data of stock graphs. A time-series data can be classified into the data sequence stored in a database and the query sequence received by users. For querying a time-series database, a ranked subsequence matching program is used to find top-k subsequences which are the most similar to the query sequence from the data sequence. The goal of this paper is to develop a visualization tool which can improve and facilitate the usage of the ranked subsequence matching program of the existing console based systems, in spite of the insufficient user’s recognition and understanding about the matching method. Specifically, the proposed tool provides five different visualization functions in the user interface which can help user easily exploit the matching program.
LSTM 기반 VAE-GAN과 윈도우 연관성을 이용한 시계열 데이터 이상치 보정 기법
윤소현,김한준,장재영 한국정보과학회 2025 데이타베이스 연구 Vol.41 No.1
본 논문은 GAN 기반 이상 탐지 모델을 활용하여 다변량 시계열 데이터의 품질을 향상시키는 새로운 데이터 보정 기법을 제안한다. 사물인터넷 환경에서 시계열 데이터 수집 및 처리 과정에서 센서 오작동 등 다양한 요인으로 인해 이상치가 발생할 수 있으며, 이를 활용한 예측모델의 성능을 크게 저하시키는 요인이 되고 있다. 본 논문은 딥러닝 기반의 이상 탐지 모델과 윈도우 연관성을 결합하여 시계열 데이터의 정교한 보정을 수행한다. 제안 기법은 LSTM 기반 VAE-GAN 모델을 활용하여 시계열 내 이상치를 효과적으로 탐지하고, 다변량 시계열 간의 상관관계를 반영하여 이상치 보정의 정확도를 높인다. 특히, 동적 시간 워핑과 피어슨 상관계수를 결합하여 윈도우 연관도 벡터를 생성함으로써, 다변량 시계열 데이터의 복잡한 구조를 효과적으로 반영할 수 있다. 본 기법의 유효성을 검증하기 위해 다양한 도메인의 데이터셋을 활용하여 실험을 수행하였으며, 제안 기법으로 보정된 데이터의 예측모델이 기존 기법으로 보정된 데이터의 예측모델보다 그 성능이 우월함을 보였다. This paper presents a novel data correction methodology to enhance multivariate time series data quality using a GAN-based anomaly detection framework. In IoT environments, anomalies frequently emerge during time series data collection and processing due to factors like sensor malfunctions, significantly impairing predictive model performance. The proposed method addresses this challenge by integrating a deep learning-based anomaly detection model with a window relevance mechanism for precise time series data correction. Our approach employs an LSTM-based VAE-GAN model that effectively identifies anomalies while enhancing correction accuracy by capturing correlations across multivariate time series. Additionally, by generating window relevance vectors through the combination of Dynamic Time Warping (DTW) and Pearson correlation coefficients, the method accurately reflects the complex structure of multivariate time series data. Experimental validation across diverse domain datasets demonstrates that predictive models trained on our corrected data consistently outperform those using conventionally corrected data.
카오스 이론 기반 시계열의 내재적 패턴분석: 룰렛과 KOSPI200 지수선물 데이터 대상
이희철 ( Heechul Lee ),김홍곤 ( Honggon Kim ),김희웅 ( Hee-woong Kim ) 한국지식경영학회 2021 지식경영연구 Vol.22 No.4
각 산업에서 대량의 데이터가 생산되면서, 빠른 경영 의사결정을 위해 시계열 패턴 예측 연구가 수많이 진행되고 있다. 하지만 데이터에 내재된 불확실성으로 인해 비선형 시계열 데이터의 특정 패턴을 예측하는 데 한계가 존재하고, 기업경영의 전략적 의사결정 어려움이 존재한다. 또한, 최근 수십 년간 불규칙한 랜덤워크 모형의 시계열 데이터 예측을 위해 산업의 목적에 맞는 금융시장 데이터를 대상으로 다양한 연구가 진행되고 있지만, 특정 규칙을 예측하고 지속가능의 기업목적 달성 어려움이 있다. 본 연구에서는 룰렛 데이터와 금융시장 데이터를 Chaos 분석기법을 이용하여 예측 결과를 비교분석하고 유의미한 결과를 도출하였다. 그리고, 본 연구는 카오스 분석이 시계열 자료를 분석하는데 있어 새로운 방법을 모색하는데 유용함을 확인하였다. 룰렛 게임의 특성을 한국 주가지수 선물의 시계열과 비교 분석하여 추세가 확인되는 경우 예측력을 높일 수 있다는 점을 도출하였으며, 불확실성이 높고 랜덤워크가 존재하는 비선형 시계열 데이터가 특정한 패턴을 가지고 있는지 판단하는데 의의가 있다. As a large amount of data is produced in each industry, a number of time series pattern prediction studies are being conducted to make quick business decisions. However, there is a limit to predicting specific patterns in nonlinear time series data due to the uncertainty inherent in the data, and there are difficulties in making strategic decisions in corporate management. In addition, in recent decades, various studies have been conducted on data such as demand/supply and financial markets that are suitable for industrial purposes to predict time series data of irregular random walk models, but predict specific rules and achieve sustainable corporate objectives There are difficulties. In this study, the prediction results were compared and analyzed using the Chaos analysis method for roulette data and financial market data, and meaningful results were derived. And, this study confirmed that chaos analysis is useful for finding a new method in analyzing time series data. By comparing and analyzing the characteristics of roulette games with the time series of Korean stock index future, it was derived that predictive power can be improved if the trend is confirmed, and it is meaningful in determining whether nonlinear time series data with high uncertainty have a specific pattern.
김진현(Jinhyun Kim),이창형(Changhyung Lee),심규석(Kyuseok Shim) 한국정보과학회 2014 정보과학회 컴퓨팅의 실제 논문지 Vol.20 No.3
하드웨어가 급속히 발전하고 SNS와 같이 사용자가 데이터를 생성하는 서비스가 늘어나며 다양한 분야에서 대규모의 시계열 데이터가 생성되고 있고 이들의 분석에 대한 요구가 커지고 있다. 본 논문에서는 다양한 어플리케이션에서 사용되는 시계열 데이터 예측을 위해 mRBF 함수를 사용하여 K - means 클러스터링 알고리즘을 변형한 시계열 데이터 클러스터링(clustering) 기술을 적용한 K -mRBF 모델을 제안한다. 실험에서는 실제 웹 서버 데이터센터에서 수집된 데이터와 합성 데이터를 이용하여 제안한 시계열 데이터 예측 방식의 정확성을 평가하고 기존의 최신 연구 기법에 비해 나은 성능을 보임을 확인한다. There is a wide range of applications such as social network services, sensor networks and data centers which generate time series data. Thus, analysis of such time series data has attracted a lot of attention in the recent years. In this paper, we propose a model called K-mRBF which utilizes a modified K-means clustering algorithm with the multivariate radial basis functions (mRBF) to predict future values based on previously observed values. We conduct extensive experiments using synthetic as well as real-life data sets to compare our K-mRBF model to the state-of-the-art model. Experimental results confirm the accuracy of our model compared to state-of-the-art models.
특징 요약을 통한 공기조화 시뮬레이션 데이터의 혼합형 다변량 시계열 군집화 품질 향상
서하린,서영균 한국정보과학회 2025 정보과학회논문지 Vol.52 No.5
기존 다변량 시계열 데이터 군집 분석 방법은 정보의 손실을 초래하여 군집화 성능 및 해석 가능성이 저하되는 문제가 있다. 더욱이, 대부분의 기존 기법들은 수치형 변수에 초점을 맞추고 있어, 실-세계에서 흔한 혼합형 다변량 시계열 데이터셋에 적용하기 어렵다. 이러한 문제를 해결하기 위해, 본 논문은 시계열 데이터를 대표적인 특징으로 요약하여 해석 가능성을 높이는 새로운 혼합형 다변량 시계열 데이터 군집 분석 기법을 제안한다. 제안하는 기법은 혼합된 형을 갖는 다변량 시계열 데이터를 군집화하기 위해 특징을 요약한다는 점에서 기존 방법과 근본적으로 다르다. 우리는 두 개의 공기조화 시뮬레이션 데이터셋(MZVAV-1과 MZVAV-2-1)에 대해 세 개의 군집화 평가 지표를 사용하여 제안된 방법을 기존 기법과 비교 평가하였다. 실험 결과 제안한 방법은 MZVAV-1에서 지표-클러스터 개수 조합의 61% 이상, MZVAV-2-1에서 40% 이상의 군집화 품질에서 기존 기법보다 우수한 성능을 보였다. 이러한 결과는 제안한 방법이 혼합형 시계열 데이터를 위한 군집화 성능 및 해석 가능성을 상당히 개선할 수 있음을 확인시켜 준다. Existing approaches for multivariate time series data clustering analysis often result in significant information loss, thereby reducing both clustering performance and interpretability. Moreover, most existing techniques primarily focus on numerical variables, making them less effective for real-world datasets that often include both numerical and categorical variables. To address these problems, this paper proposes a novel clustering technique for mixed-type multivariate time series data, enhancing interpretability by summarizing the data into representative features. The proposed technique is fundamentally different from existing methods in that it summarizes features to cluster mixed-type multivariate time series data. We evaluated the proposed method against existing techniques using three clustering evaluation metrics on two HVAC simulation datasets (MZVAV-1 and MZVAV-2-1). Experimental results showed that the proposed method outperformed existing techniques in clustering quality for over 61% of metric–cluster count combinations on MZVAV-1, and over 40% on MZVAV-2-1. These findings confirmed that the proposed technique could significantly improve clustering performance and interpretability for mixed-type time-series data.
다변량 시계열데이터 집단 상호간의 주성분 정보 비교를 통한 이상 예측
박찬영,김창욱 한국경영과학회 2013 한국경영과학회 학술대회논문집 Vol.2013 No.5
모니터링 시스템에서 계측되는 다변량 시계열 데이터를 분석하여 시스템의 상태가 변화했는지를 탐지하는 현재까지의 방법은 각 변수별로 시계열 데이터의 특징을 단일 값으로 요약하고 요약된 변수 값을 분류모형에 입력하여 이상 유무를 추정하는 방식이었다. 그러나 이 방법은 시계열 데이터를 요약하는 과정에서 데이터의 구조적 특징이 손실되는 단점이 있다. 본 논문은 시계열 데이터를 모두 사용하는 이상탐지 방법을 제안한다. 템플릿 시계열 데이터 집단과 테스트 시계열 데이터 집단이 주어졌을 때 각 데이터 군을 주성분 분석을 통해서 주성분 공간내의 score 분포로 표현하고 두 분포의 특징(주성분간의 사이각, 고유값의 비율, score 평균값의 비율)을 비교해서 거리 척도로 표현하고 Hampel 값을 이용하여 이상 여부를 탐지한다. 세 종류의 다변량 시계열 데이터를 대상으로 실험을 한 결과 본 연구에서 제안한 방법은 우수한 이상탐지 성능을 보였다.