http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
An Ensemble Machine Learning from Spatio-temporal Kriging for Imputation of PM10 in Seoul, Korea
Insang Song(송인상),Changro Lee(이창로),Key-Ho Park(박기호) 대한지리학회 2018 대한지리학회지 Vol.53 No.3
시공간 데이터의 결측치는 그 자체로 데이터의 결함으로서 시공간 분석 결과를 왜곡시킬 수 있다. 그러나 시공간 데이터에 내재된 시공간 의존성을 이용한 결측대치 방법은 덜 주목받아 왔다. 이에 본 연구에서는 서울특별시 및 근방의 54개 측정소로부터 2010년부터 2014년까지 5년간 측정된 시간별 미세먼지(PM10) 데이터의 결측치를 대치하기 위하여 앙상블 시공간 크리깅 모형에 기초한 결측대치 모형을 제안하였다. 기존 연구들을 검토한 결과, 본 연구에서 이용된 접근법의 필요성이 발견되었다. 본 연구가 제안하는 앙상블 결측대치 모형은 단기간의 시공간 데이터에서 재표집(resampling)된 하위 데이터셋으로 복수의 시공간 크리깅 모형들을 적합하고, 이들을 앙상블하여 결측대치 정확도를 높이고자 한다. 향상 여부를 실증하기 위하여 측정 데이터에 대해 결측대치 실험을 실시하였다. 실험에서는 재표집 횟수, 시공간 크리깅 적합 시 이웃 비율, 결측 생성 비율 등 3요소에 대해 서로 다른 조건들을 적용하였다. 실험 결과, 제안된 앙상블 모형은 단일 시행 시공간 크리깅 모형(1.32~11.36%)과, 선형 앙상블 모형(평균 52%)보다 높은 정확도로 결측치를 대치하였다. 본 결과는 제한된 환경에서 시공간 크리깅 모형 앙상블이 결측 대치 정확도를 높이는 데 효과가 있음을 입증한다. 다만 제안된 알고리즘의 정확성은 머신러닝 기반의 결측대치 알고리즘에 비해서 덜 우수했는데, 이 결과는 머신러닝 알고리즘에서 시공간 의존성 효과가 어떻게 나타나는지에 대한 추가 연구 필요성을 제기한다. Missing values in spatio-temporal data presumably cause defects, such that contaminate the results of spatio-temporal analyses. However, imputation methods for spatio-temporal data considering the inherent nature of spatio-temporal dependence have been neglected. We suggest an imputation algorithm based on ensemble spatio-temporal kriging for particulate matter measurement data for the period 2010-2014 at 54 monitoring stations near the metropolitan city of Seoul, Korea. We review previous studies on imputation methods for spatio-temporal data, then shed light on the necessity of our approach. Our approach implements resampling techniques on limited spatio-temporal data for a short-term period, then aims to enhance the imputation accuracy by taking the ensemble of the imputation results of resampled sub datasets. To examine such enhancement, we apply different conditions in experiments, including the number of resampling, neighborhood ratios, and ratios of artificially generated missing values. Results show that our approach outperforms both spatio-temporal kriging with the whole dataset (1.32~11.36%) and the linear regression-based imputation algorithm (52% in average). Our results show that the learning approach by resampling is still effective in spatiotemporal kriging in a limited environment as well as the spatio-temporal algorithm considering the inherent dependence among the data. But the considerable underperformance compared to the accuracy of the machine learning-based algorithm indicates the necessity of further examination of the effect of spatio-temporal dependence in such an algorithm.