      • KCI등재

        차원축소를 통한 결측자료의 군집분석

        송주원(Juwon Song) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        군집분석은 유사한 특성들을 지닌 관측값들을 같은 군집으로, 다른 특성들을 지닌 관측값들은 서로 다른 군집으로 분류하는 분석 기법이다. 많은 변수를 포함한 고차원 자료에서는 일반적인 군집분석 대신 차원축소를 통하여 군집분석을 실시하는 방법들이 제안되어 왔다. 주성분 분석을 통해 차원을 축소한 후 축소된 차원에서 군집분석을 실시하는 직렬분석 방법보다 차원축소와 군집분석을 결합하여 동시에 실시하는 방법들이 더 우수한 성능을 보인다는 것이 알려져 있다. 한편, 대부분의 자료는 결측값을 포함하고 있는데 결측값이 포함된 자료에 대하여 군집분석을 실시하는 경우 불완전하게 관측된 자료들은 어느 군집으로도 분류되지 않는 문제가 발생한다. 따라서 군집분석을 실시하기 전에 먼저 결측값 대체를 실시하는 것이 일반적이다. 본 연구에서는 고차원 결측자료에 대하여 차원축소를 통한 k-평균 군집분석을 실시할 때 결측값 대체를 결합하여 실시하는 방법을 제안한다. 이 방법은 군집 정보를 이용한 결측값 대체를 통해 정확한 차원축소를 통한 군집분석이 가능하게 하는 장점을 지닌다. 제안된 방법은 모의실험을 통해 성능을 평가하였고 결측값을 대체한 후 대체된 자료에 대하여 차원축소를 통한 군집분석을 실시하는 직렬식 분석방법과 비교하였다. 제안된 방법은 적절한 차원축소를 통한 k-평균 군집분석을 실시한다면 직렬식 분석보다 오분류율이 낮게 나타났다. Cluster analysis classify similar observations into the same cluster and different observations into different clusters. When data include many variables, reduced dimension clustering methods have been suggested instead of the standard clustering methods. The joint analysis of dimension reduction and clustering is known to perform better than tandem analysis that sequentially conducts dimension reduction and clustering. On the other hand, most data include missing values. When cluster analysis is conducted with incomplete data, incomplete observations can not be classified into any group. To avoid this problem, it is common to impute missing values before conducting cluster analysis. In this study, we suggest a method for combining dimension reduction k-means clustering and missing data imputation. The suggested method has an advantage to accurate classify observations through imputation using cluster information. A simulation is conducted to evaluate performance of the suggested method and compare the result with the one based on tandem analysis. The suggested method using an appropriate dimension reduction k-means clustering showed lower misclassification rates than tandem analysis.

      • KCI등재

        체계적 측정오차를 포함한 반응변수의 회귀모형 추론

        송주원(Juwon Song) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.6

        회귀분석을 실시할 때 측정된 자료는 오차 없이 정확히 측정되었다고 가정하는 게 일반적이다. 하지만 실제 자료는 정확한 측정이 어려워 오차를 포함하여 측정되는 경우가 발생하며 이를 무시한 채 회귀분석을 실시한다면 회귀계수의 추정량에 편향이 발생할 수 있다. 회귀분석의 경우 설명변수가 오차를 포함하여 측정된 경우를 흔히 가정하지만 반응변수가 오차를 포함하여 측정된 경우에도 이를 보정하는 다양한 방법들이 제안되었다. 본 연구에서는 Nab et al.(2019)이 제안한 측정오차를 포함한 반응변수에 대한 선형 회귀분석에서 회귀계수의 보정 방법을 고려하였다. 특히 반응변수에 대한 체계적 측정오차 모형 하에서 선형 회귀분석의 회귀계수 보정 추정량의 특성을 살펴보았는데 이 추정량은 일치추정량이지만 불편추정량이 아니므로 유한표본에서는 편향이 발생할 수 있고 이에 영향을 미치는 요소들을 파악하기 위하여 모의실험을 실시하였다. 표본의 크기가 커짐에 따라 기울기 계수의 추정량에서 편향이 줄어들 뿐 아니라 분석 모형의 회귀계수값, 체계적 측정오차 모형의 회귀계수값, 분석모형의 결정계수, 체계적 측정오차 모형의 결정계수에 따라 편향 정도가 달라짐을 확인하였다. 또한 보정추정량에 대하여 델타방법을 사용하여 계산한 신뢰구간은 신뢰수준이 매우 높게 나타났다. Regression analysis assumes that variables are measured without errors. However, real data may include measurement errors due to various reasons, and it can cause bias in the estimation of regression parameters. Many researches have been conducted to adjust the bias of the regression parameters when the response variable is measured with errors. In this study, we consider the bias correction method suggested by Nab et al. (2019). Under the systematic measurement error model, it was shown that the bias corrected estimator of the linear regression parameters are consistent but biased. In this study, a simulation was conducted to evaluate performance of the suggested bias corrected estimator under the finite samples. It was found that the bias of the slope parameter was affected by the sample size, the size of the regression parameter in the analysis model, the size of the parameter in the systematic measurement error model, the coefficient of determination in the analysis model as well as in the systematic measurement error model. The coverage of the 95% confidence interval was very high when the delta method was applied for the bias corrected estimator.

      • KCI등재

        측정오차로 인한 불완전한 측정 하에서의 결측값 대체

        송주원(Juwon Song) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.5

        실제 자료는 여러 가지 원인으로 인하여 결측이 종종 발생하는데 결측값을 잘 예측할 수 있는 정보가 존재한다면 이를 활용하여 대체를 실시하는 게 바람직하다. 대규모 설문조사에서는 동일하거나 유사한 내용을 조사하는 여러 문항들이 사용되는 경우가 있고 동일한 정보를 측정한 행정자료나 다른 조사가 존재하기도 한다. 동일한 정보를 얻은 자료가 존재할 때 결측값 대체에서는 단순히 이 자료의 값으로 대체를 실시하는 게 일반적이지만 실제로 두 값은 정확히 동일하지 않은 경우가 많다. 본 연구에서는 결측이 발생한 관심 변수와 동일한 내용을 측정한 변수의 값이 일치하지 않는 경우 이를 측정오차를 포함한 관심변수의 불완전한 측정값이라 가정하고 이를 보정하는 대체 방법을 제안한다. 예제로 노동패널조사 22차 자료의 개인 작년 총근로소득에 결측이 발생하는 경우 작년에 응답한 월평균 근로소득으로부터 유추한 총근로소득으로 대체하는데 이 두 값들 사이에 차이가 존재하는 지 살펴보고 유추한 총근로소득을 조사에서 응답한 총근로소득에 대한 측정오차로 인한 불완전한 측정이라는 가정 하에 측정오차 모형을 사용해 보정하여 대체하였다. 모의실험을 통해 유추한 값으로 단순히 대체하는 경우와 측정오차를 고려한 보정을 실시하여 대체하는 경우를 비교하였는데 측정오차를 보정한 경우 평균 추정량의 편향이 더 작아지고 각 결측값을 더 정확히 대체하는 것으로 나타났다. Real data often include missing values. When there exists information that can well predict missing values, it is recommended to conduct imputation using this information. In large scale surveys, there may be multiple questions that measure the same concepts. Under this circumstance, it is usual to impute missing values with this information. However, in reality, the variable to be imputed may not exactly match with information given by other variable or other resources. In this study, it is assumed that information from other variables or resources is incomplete measurement of the variable to be imputed due to measurement errors, and we suggest an imputation technique under the measurement error model. As an example, annual incomes of the last year in 22nd wave KLIPS data are compared with the predicted annual income using monthly income and the duration of jobs from the job history data. Differences between two values are observed, and Imputation was conducted with an adjustment of measurement errors when the predicted values are considered as values with measurement errors. Simulation was conducted to evaluate bias in the mean estimate and RMSE in the individual imputed values. It showed that imputation under the measurement error model performed better than naive imputation of the predicted values.

      • KCI등재

        패널자료에서의 항목무응답 대체 방법 비교

        이혜정,송주원,Lee, Hyejung,Song, Juwon 한국통계학회 2017 응용통계연구 Vol.30 No.3

        설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다. When conducting a survey, item nonresponse occurs if the respondent does not respond to some items. Since analysis based only on completely observed data may cause biased results, imputation is often conducted to analyze data in its complete form. The panel study is a survey method that examines changes of responses over time. In panel studies, there has been a preference for using information from response values of previous waves when the imputation of item nonresponses is performed; however, limited research has been conducted to support this preference. Therefore, this study compares the performance of imputation methods according to whether or not information from previous waves is utilized in the panel study. Among imputation methods that utilize information from previous responses, we consider ratio imputation, imputation based on the linear mixed model, and imputation based on the Bayesian linear mixed model approach. We compare the results from these methods against the results of methods that do not use information from previous responses, such as mean imputation and hot deck imputation. Simulation results show that imputation based on the Bayesian linear mixed model performs best and yields small biases and high coverage rates of the 95% confidence interval even at higher nonresponse rates.

      • 계층 그리드 화일의 벌크로드를 위한 기법

        김상욱(Sang-Wook Kim),송주원(JuWon Song) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.5

        계층 그리드 화일은 다중 애트리뷰트 액세스를 효율적으로 지원하는 다차원 화일이다. 데이타베이스를 구축하는 경우에는 매우 방대한 양의 객체들을 대상으로 하므로 다차원 화일의 효율적인 벌크 로드는 매우 중요하다. 본 논문에서는 계층 그리드 화일을 위한 새로운 벌크 로드 기법인 MLGF_BulkLoad를 제안한다. MLGF_BulkLoad는 계층 그리드 화일의 구성 요소인 각 페이지를 디스크로부터 한번 액세스할 때, 이곳에 저장될 모든 객체 및 디렉토리 엔트리들을 한꺼번에 처리하는 방식을 사용한다. 따라서 기존의 삽입 알고리즘을 반복적으로 적용함으로써 계층 그리드 화일을 구성하는 경우 같은 페이지를 디스크로부터 여러번 액세스하게 되는 오버헤드를 제거할 수 있다. MLGF_BulkLoad는 두 단계로 구성된다. 첫 번째 단계에서는 다차원의 데이타 공간상에서 인접한 객체들을 일차원의 물리적 공간내에 인접하도록 재배열시키는 작업을 수행한다. 이를 위하여 다차원 공간을 일차원 공간으로 사상시킬 때 원 공간에서의 인접성을 효과적으로 유지시키는 Z 변환을 사용한다. 두 번째 단계에서는 재배열된 객체들을 페이지 단위로 저장시키는 작업과 각 객체 페이지와 대응되는 리프 단계 디렉토리 엔트리를 생성시키는 작업을 수행한다. 또한, 이와 병행하여 같은 작업을 상위 단계 디렉토리에도 재귀적으로 적용시킨다. 성능 평가를 위하여 수행시 발생되는 디스크 액세스 수를 분석함으로써 MLGF_BulkLoad의 우수성을 규명하였다. 또한, 시뮬레이션을 통하여 각 인자들의 값의 변화에 따르는 MLGF_BulkLoad의 성능상의 경향을 제시하였다. The multilevel grid file(MLGF) is a multidimensional file supporting multi-attribute accesses efficiently. The efficient bulk-loading of a multidimensional file is very important in constructing a database since this should handle an enormous volume of objects. In this paper, we propose the MLGF_BulkLoad, a new technique for bulk-loading the MLGF. The main feature of the MLGF_BulkLoad is to simultaneously process all the objects or directory entries to be placed on each page belonging to the MLGF when accessing the page. This avoids the overhead for accessing the same page multiple times, which results from applying the MLGF insertion algorithm repeatedly. The MLGF_BulkLoad consists of two phases. The first phase relocates all the objects in order that the logically-adjacent objects in multidimensional data space are clustered in one-dimensional physical space. For this, we employ the Z transformation, which has been known to map effectively multidimensional space into one dimensional space preserving proximity. The second phase paginates the relocated objects and creates the leaf-level directory entries, each of which corresponds to the page containing a set of objects. Simultaneously, it performs the same actions on the directory entries recursively in a bottom-up fashion. For performance evaluation, we analyze the MLGF_BulkLoad in terms of the number of page accesses. The result shows the superiority of the MLGF_BulkLoad. We also present performance tendency of the MLGF _BulkLoad according to the changes of various parameter values through simulation.

      • KCI등재

        결측치를 포함한 데이터의 k-평균 군집분석 방법 비교

        양대경(Daegyeong Yang),명재성(Jasung Myung),이승훈(Seunghoon Lee),송주원(Juwon Song) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.6

        군집분석이란 개체 간 유사성을 포착하여 유사한 특징을 공유하는 개체들을 동일 군집으로 모으고 이질적인 개체들을 다른 군집을 정의해내는 비지도 학습 방법이다. 다양한 군집분석 방법이 제안되어 있으며 최적화 군집 방법 중 각 군집의 중심과 개체 간의 유클리디안 거리를 최소화하는 k-평균 군집분석은 가장 기본적인 방법으로 널리 사용되고 있다. 하지만 데이터에 결측이 존재하는 경우, 각 군집의 중심에서 결측이 발생한 개체까지의 거리를 계산하는 것이 불가능하므로 결측자료는 군집으로 분류되지 않는 문제가 발생하며 결측 자료를 제외한 군집분석의 결과는 예측하기 어렵다. 이러한 상황에 대해 대처하기 위해 결측치가 발생하더라도 관측된 정보만을 근거하여 군집분석을 수행하거나 결측치를 대체한 후 군집분석을 수행하는 다양한 방법들이 제안되어 있다. 본 연구에서는 결측 자료를 포함하고 있는 데이터에 대해 k-평균 군집분석을 수행할 방법들을 탐구하였으며, 모의실험을 통해 해당 방법들의 성능을 평가하였다. 모의실험을 통한 평가 결과, 결측치를 대체한 다음 k-평균 군집분석을 수행하는 것이 가장 좋은 성능을 보였으며, 결측치 대체 방법 중에서는 k-최근접 이웃(k-nearest neighbors) 대체가 가장 좋은 성능을 보였다. Cluster analysis is an unsupervised learning method to find heterogeneous clusters that capture similarities among items and separate different items into different clusters. Various cluster analysis techniques have been proposed, and the k-means clustering method, which minimizes the sum of Euclidean distances between cluster centroids and individual entities, is widely recognized as a standard cluster analysis method. When data include missing values, it is challenging to conduct cluster analysis, because it is impossible to calculate distances between centroids of clusters and incomplete items, resulting in excluding classification of these items. Techniques have been suggested to handle missing values in k-means clustering, including conducting cluster analysis after imputation of missing values or cluster analysis based on available information. In this study, we explore methods to perform k-means cluster analysis on data with missing values and evaluate performance of these methods using a simulation. The results of simulation studies indicate that conducting k-means cluster analysis after imputation yields the better performance than the one based on available information. Among the various imputation methods, k-nearest neighbors imputation performed the best.

