RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        군집분석을 통한 K리그 축구팀 플레이스타일 분류

        김종원(Jongwon Kim),최형준(Hyongjun Choi) 한국체육측정평가학회 2021 한국체육측정평가학회지 Vol.23 No.1

        본 연구는 2020 K리그 경기에서 발생한 패스 관련 분석인자들을 이용하여 군집분석을 통해 K리그 팀들의 플레이스타일을 알아보고자 하였다. 2020 K리그 모든 팀들의 전 경기(스플릿 후 경기 제외)를 대상으로 하였으며, 연구의 대상이 된 경기 수는 총 132경기였으며, 양 팀의 자료를 각각 고려하였다(n=264). K리그 프로축구연맹 ‘데이터포탈’에서 제공받은 18개의 패스 관련 분석인자들을 Microsoft Office Excel 2007을 이용하여 정리하였고, 그 후 R 3.6.2를 이용하여 자료 처리하였다. 통계적 검증을 위하여 기술통계 분석(descriptive statistics analysis)을 실시한 후, 데이터 마이닝 기법 중 하나인 k-평균 군집분석(k-means cluster analysis)과 교차분석(cross-tabulation analysis)을 실시하였다. 본 연구의 군집분석을 통하여 얻어진 군집의 수는 3개였다. 절반 이상의 팀들이 군집 1에 속하였고, 군집2(전북, 울산, 강원)와 군집3(대구, 광주, 인천)에는 각각 3팀이 속하였다. 최상위 팀인 1위 팀 전북과 2위 팀 울산이 속한 군집2는 다른 군집들과 비교해 공격 1/3지역 패스 비율, 숏 패스 비율, 전진 패스 비율을 제외한 나머지 15개의 분석인자들에서 가장 높은 평균값을 나타냈고, 군집3의 경우 가장 낮은 평균값을 보였다. 분석인자들 간의 유사성을 이용하여 군집을 나누는 방법으로 직접적인 팀의 플레이스타일을 표현하는데 한계가 있지만, 본 연구에서 사용된 분석인자들을 통해 비슷한 유형의 팀들을 군집하는데 의미가 있다. The purpose of this study was to identify the playing styles of football clubs in K-League through cluster analysis using performance indicators related to pass. All matches excepted to split matches were used for analysis and all data were provided from Korea Football League(n=264). All data were preprocessed on Microsoft Office Excel 2007 and statistical analysis was conducted on R 3.6.2. Descriptive statistical analysis was firstly used to calculate means and standard deviations for each performance indicators and then k-means cluster analysis, one of the data mining method, was conducted to identify clusters. Finally, cross-tabulation analysis was used to identify K-League teams into each cluster. Three clusters were identified and Jeonbuk, Ulsan and Gangwon was included in cluster 2 whilst Daegu, Gwangju and Incheon was included in cluster 3. The other teams were included in cluster 1. Cluster 2 had greater performance indicators related to pass rather than other clusters. Although cluster analysis, grouping performance indicators in such a way that performance indicators in the same cluster are more similar each other compared to other clusters, could not determine accurate playing styles in football, it is literally meaningful to group the similar type of teams. There needs to be a great interpretation of the characteristics of the formed clusters.

      • KCI등재

        차원축소를 통한 결측자료의 군집분석

        송주원(Juwon Song) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        군집분석은 유사한 특성들을 지닌 관측값들을 같은 군집으로, 다른 특성들을 지닌 관측값들은 서로 다른 군집으로 분류하는 분석 기법이다. 많은 변수를 포함한 고차원 자료에서는 일반적인 군집분석 대신 차원축소를 통하여 군집분석을 실시하는 방법들이 제안되어 왔다. 주성분 분석을 통해 차원을 축소한 후 축소된 차원에서 군집분석을 실시하는 직렬분석 방법보다 차원축소와 군집분석을 결합하여 동시에 실시하는 방법들이 더 우수한 성능을 보인다는 것이 알려져 있다. 한편, 대부분의 자료는 결측값을 포함하고 있는데 결측값이 포함된 자료에 대하여 군집분석을 실시하는 경우 불완전하게 관측된 자료들은 어느 군집으로도 분류되지 않는 문제가 발생한다. 따라서 군집분석을 실시하기 전에 먼저 결측값 대체를 실시하는 것이 일반적이다. 본 연구에서는 고차원 결측자료에 대하여 차원축소를 통한 k-평균 군집분석을 실시할 때 결측값 대체를 결합하여 실시하는 방법을 제안한다. 이 방법은 군집 정보를 이용한 결측값 대체를 통해 정확한 차원축소를 통한 군집분석이 가능하게 하는 장점을 지닌다. 제안된 방법은 모의실험을 통해 성능을 평가하였고 결측값을 대체한 후 대체된 자료에 대하여 차원축소를 통한 군집분석을 실시하는 직렬식 분석방법과 비교하였다. 제안된 방법은 적절한 차원축소를 통한 k-평균 군집분석을 실시한다면 직렬식 분석보다 오분류율이 낮게 나타났다. Cluster analysis classify similar observations into the same cluster and different observations into different clusters. When data include many variables, reduced dimension clustering methods have been suggested instead of the standard clustering methods. The joint analysis of dimension reduction and clustering is known to perform better than tandem analysis that sequentially conducts dimension reduction and clustering. On the other hand, most data include missing values. When cluster analysis is conducted with incomplete data, incomplete observations can not be classified into any group. To avoid this problem, it is common to impute missing values before conducting cluster analysis. In this study, we suggest a method for combining dimension reduction k-means clustering and missing data imputation. The suggested method has an advantage to accurate classify observations through imputation using cluster information. A simulation is conducted to evaluate performance of the suggested method and compare the result with the one based on tandem analysis. The suggested method using an appropriate dimension reduction k-means clustering showed lower misclassification rates than tandem analysis.

      • KCI등재

        결측치를 포함한 데이터의 k-평균 군집분석 방법 비교

        양대경(Daegyeong Yang),명재성(Jasung Myung),이승훈(Seunghoon Lee),송주원(Juwon Song) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.6

        군집분석이란 개체 간 유사성을 포착하여 유사한 특징을 공유하는 개체들을 동일 군집으로 모으고 이질적인 개체들을 다른 군집을 정의해내는 비지도 학습 방법이다. 다양한 군집분석 방법이 제안되어 있으며 최적화 군집 방법 중 각 군집의 중심과 개체 간의 유클리디안 거리를 최소화하는 k-평균 군집분석은 가장 기본적인 방법으로 널리 사용되고 있다. 하지만 데이터에 결측이 존재하는 경우, 각 군집의 중심에서 결측이 발생한 개체까지의 거리를 계산하는 것이 불가능하므로 결측자료는 군집으로 분류되지 않는 문제가 발생하며 결측 자료를 제외한 군집분석의 결과는 예측하기 어렵다. 이러한 상황에 대해 대처하기 위해 결측치가 발생하더라도 관측된 정보만을 근거하여 군집분석을 수행하거나 결측치를 대체한 후 군집분석을 수행하는 다양한 방법들이 제안되어 있다. 본 연구에서는 결측 자료를 포함하고 있는 데이터에 대해 k-평균 군집분석을 수행할 방법들을 탐구하였으며, 모의실험을 통해 해당 방법들의 성능을 평가하였다. 모의실험을 통한 평가 결과, 결측치를 대체한 다음 k-평균 군집분석을 수행하는 것이 가장 좋은 성능을 보였으며, 결측치 대체 방법 중에서는 k-최근접 이웃(k-nearest neighbors) 대체가 가장 좋은 성능을 보였다. Cluster analysis is an unsupervised learning method to find heterogeneous clusters that capture similarities among items and separate different items into different clusters. Various cluster analysis techniques have been proposed, and the k-means clustering method, which minimizes the sum of Euclidean distances between cluster centroids and individual entities, is widely recognized as a standard cluster analysis method. When data include missing values, it is challenging to conduct cluster analysis, because it is impossible to calculate distances between centroids of clusters and incomplete items, resulting in excluding classification of these items. Techniques have been suggested to handle missing values in k-means clustering, including conducting cluster analysis after imputation of missing values or cluster analysis based on available information. In this study, we explore methods to perform k-means cluster analysis on data with missing values and evaluate performance of these methods using a simulation. The results of simulation studies indicate that conducting k-means cluster analysis after imputation yields the better performance than the one based on available information. Among the various imputation methods, k-nearest neighbors imputation performed the best.

      • KCI등재

        확률적 reduced $K$-means 군집분석

        이승훈,송주원 한국통계학회 2021 응용통계연구 Vol.34 No.6

        라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 $K$-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 $K$-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced $K$-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced $K$-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다. Cluster analysis is one of unsupervised learning techniques used for discovering clusters when there is no prior knowledge of group membership. $K$-means, one of the commonly used cluster analysis techniques, may fail when the number of variables becomes large. In such high-dimensional cases, it is common to perform tandem analysis, $K$-means cluster analysis after reducing the number of variables using dimension reduction methods. However, there is no guarantee that the reduced dimension reveals the cluster structure properly. Principal component analysis may mask the structure of clusters, especially when there are large variances for variables that are not related to cluster structure. To overcome this, techniques that perform dimension reduction and cluster analysis simultaneously have been suggested. This study proposes probabilistic reduced $K$-means, the transition of reduced $K$-means (De Soete and Caroll, 1994) into a probabilistic framework. Simulation shows that the proposed method performs better than tandem clustering or clustering without any dimension reduction. When the number of the variables is larger than the number of samples in each cluster, probabilistic reduced $K$-means show better formation of clusters than non-probabilistic reduced $K$-means. In the application to a real data set, it revealed similar or better cluster structure compared to other methods.

      • KCI등재

        결측자료의 k-평균 군집분석

        송주원 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.2

        Cluster analysis is an analysis technique to classify observations with similar characteristics into the same cluster. The k-means cluster analysis conducts grouping of observations based on an optimization method minimizing the sum of Euclidean distances between observations and their cluster centers. In real data, missing values often occur in some variables, and when cluster analysis is conducted for missing data, it is common to exclude observations with missing values. However, in this case, missing values cannot be classified into any group, and it may cause biases in estimating cluster centers. Therefore, to include observations with missing values in cluster analysis, it is often to impute missing values and conduct cluster analysis using imputed data. A disadvantage of this imputation approach is to conduct imputation without using cluster information. In this study, we propose methods to impute missing values using cluster information. Simulation is conducted to compare performance of the suggested imputation method with the one based on imputation without using cluster information. The proposed imputation method provides better results than the one ignoring cluster information. 군집분석은 유사한 특성을 지닌 관측치들을 동일한 그룹으로 분류하는 분석 기법이다. k-평균 군집분석은 관측치들과 군집 평균의 유클리디언 거리의 합을 최소화하는 그룹을 찾는 최적화 기법을 통해 자료를 군집으로 분류한다. 실제 자료의 경우 일부 변수에서 결측이 발생하는 경우가 흔하며 결측을 포함한 자료에 대하여 군집분석을 실시하는 경우 결측이 발생한 관측치를 제거한 후 분석을 실시하는 것이 일반적이다. 하지만 이 경우 결측이 발생한 자료는 어느 군집에도 할당할 수 없고 각 그룹의 평균의 추정에 편향이 발생할 가능성이 높다. 따라서 결측치를 포함한 자료를 군집분석에 포함하기 위하여 흔히 사용되는 방법은 결측값에 대해 대체를 실시한 후 대체된 자료에 대하여 군집분석을 실시하는데 이 경우 군집 정보를 포함하지 않고 대체를 실시하는 단점을 지닌다. 따라서 본 연구에서는 결측치에 대한 대체를 실시할 때 군집 정보를 이용하여 대체하는 방법을 제안한다. 모의실험을 통해 본 연구에서 제안한 방법을 군집 정보를 포함하지 않고 대체를 실시한 후 군집분석을 실시하는 경우와 비교하였는데 본 연구에서 제안한 대체 방법이 더 나은 결과를 보였다.

      • KCI등재후보

        다차원 데이터의 군집분석을 위한 차원축소 방법: 주성분분석 및 요인분석 비교

        홍준호 ( Jun-ho Hong ),오민지 ( Min-ji Oh ),조용빈 ( Yong-been Cho ),이경희 ( Kyung-hee Lee ),조완섭 ( Wan-sup Cho ) (사)한국빅데이터학회 2020 한국빅데이터학회 학회지 Vol.5 No.2

        본 논문은 농식품 소비자패널 데이터에서 소비자의 유형을 나눌 때에 변수간 연관성이 많은 장바구니 분석에서 전처리 방법과 차원축소의 방법을 제안한다. 군집분석은 다변량 자료에서 관측 개체를 몇 개의 군집으로 나눌 때 널리 사용되는 분석기법이다. 하지만 여러 개의 변수가 연관성을 가진 경우에는 차원축소를 통한 군집분석이 더 효과적일 수 있다. 본 논문은 1,987 가구를 대상으로 조사한 식품소비 데이터를 K-means 방법을 사용하여 군집화하였으며, 군집을 나누기 위해 17개의 변수를 선정하였고, 17개의 다중공선성 문제와 군집을 나누기 위한 차원축소의 방법 중 주성분 분석과 요인분석을 비교하였다. 본 연구에서는 주성분분석과 요인분석 모두 2개의 차원으로 축소하였으며 주성분분석에서는 3개의 군집으로 나뉘었지만 분석하고자 하였던 소비 패턴에 대한 군집의 특성이 잘 나타나지 않았으며 요인분석에서는 분석가가 보고자 하는 소비 패턴의 특징이 잘 나타났다. This paper proposes a pre-processing method and a dimensional reduction method in the analysis of shopping carts where there are many correlations between variables when dividing the types of consumers in the agri-food consumer panel data. Cluster analysis is a widely used method for dividing observational objects into several clusters in multivariate data. However, cluster analysis through dimensional reduction may be more effective when several variables are related. In this paper, the food consumption data surveyed of 1,987 households was clustered using the K-means method, and 17 variables were re-selected to divide it into the clusters. Principal component analysis and factor analysis were compared as the solution for multicollinearity problems and as the way to reduce dimensions for clustering. In this study, both principal component analysis and factor analysis reduced the dataset into two dimensions. Although the principal component analysis divided the dataset into three clusters, it did not seem that the difference among the characteristics of the cluster appeared well. However, the characteristics of the clusters in the consumption pattern were well distinguished under the factor analysis method.

      • KCI등재

        측정오차를 포함한 자료의 모형기반 판별분석

        송주원 한국자료분석학회 2012 Journal of the Korean Data Analysis Society Vol.14 No.6

        Discriminant analysis is a statistical technique that finds a discriminant function based on various characteristics and assigns each observation to an appropriate group. Model-based cluster analysis is a clustering technique based on finite mixture models and can be applied to discriminant analysis. Fraley and Raftery (2002) assumes that each group can be represented by a mixture distribution of several distributions and suggest a model-based mixture discriminant analysis (MclustDA) using model-based cluster analysis. When some observations are measured with errors, observations with and without measurement errors may follow different distributions with different parameter values, and each group may consist of a mixture of more than one distributions. In this study, we conduct a simulation to compare misclassification rates among the standard discriminant analysis, mixture discriminant analysis assuming more than one distributions in each group, and discriminant analysis based on model-based cluster analysis. Misclassification rates tends to increase when the percentage of observations measured with errors increases. Mixture discriminant analysis and discriminant analysis based on cluster analysis show lower misclassification rates than the standard discriminant analysis. 판별분석은 측정된 변수들의 특성에 근거하여 집단을 판별하는 방법을 찾아내고 새로운 개체들을 적절한 집단에 할당하는 것을 목적으로 하는 통계적 기법이다. 모형기반 군집분석은 유한개의 혼합모형에 근거하여 군집분석을 실시하는 기법으로서 판별분석으로도 적용이 가능하다. Fraley, Raftery(2002)는 각 군집에서의 자료가 한 개의 분포를 따른다고 가정하는 대신 각 군집이 여러 개의 분포의 혼합분포로 표현될 수 있다고 가정하고 모형기반 군집분석을 이용한 모형기반 혼합판별분석(MclustDA)을 제안하였다. 일부 관측 개체가 부정확하게 측정된 경우 오차를 포함한 자료는 정확하게 측정된 자료와 다른 모수를 가진 분포를 따를 수 있으므로 각 집단은 한 개의 분포 대신 한 개 이상의 분포로 구성된다고 볼 수 있다. 본 연구에서는 일부 개체가 오차를 포함한 자료에서 각 집단에 대하여 한 개 이상의 모형의 혼합분포를 가정하는 혼합판별분석이나 모형기반 군집분석을 이용한 판별분석을 실시한다면 기대 오분류율을 낮출 수 있는지 모의실험을 통해 비교하였다. 오차를 가지고 측정된 자료의 비율이 증가할수록 부정확한 자료로 인하여 오분류율이 증가할 수 있으며 혼합판별분석이나 모형기반 군집분석을 이용한 판별분석이 각 집단이 한 개의 분포로 이루어졌다고 가정하는 판별분석보다 오분류율이 작게 나타났다.

      • KCI등재

        양적·질적 혼합형 데이터에 대한 군집분석 알고리즘 비교 및 사례분석

        배영준,강현철,연규필,권은미,한상태 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.6

        군집분석은(cluster analysis)은 군집의 개수나 구조에 관한 특별한 가정 없이 개체들 사이의 유사성 또는 거리(비유사성)에 근거하여 자연스러운 군집을 찾고 다음 단계의 분석을 꾀하는 탐색적인 통계분석 기법이다. 전통적인 거리-기반 군집분석에서는 양적(연속형) 데이터가 주로 사용된다. 그러나 질적(범주형) 데이터가 포함되어 있는 데이터에 대해서 군집분석을 수행하고자 하는 경우도 자주 발생한다. 특히 데이터마이닝과 같은 분야에서는 인구사회적 특성이나 거래 속성 등의 질적 변수를 포함하여 분석해야 하는 경우가 매우 많다. 본 연구에서는 양적․질적 변수들이 혼합되어 있는 데이터에 대하여 가장 널리 사용되는 군집분석 알고리즘들을 비교하였다. 여기에서 다루는 알고리즘은 거리에 기초한 SAS/Enterprise Miner의 k-평균 군집화, 확률분포에 기초한 SPSS의 2-단계(two-step) 군집화, 혼합모형에 기초한 Latent GOLD의 LCA(latent class analysis) 방법이다. 본 연구의 사례분석 결과에서도 볼 수 있듯이 동일한 데이터에 대하여도 사뭇 다른 결과를 산출한다. 따라서 실제 문제에서 연구자들은 한 가지 방법만으로 결과를 도출하지 말고, 다양한 방법들을 사용하여 결과를 얻고 그들을 서로 비교하여 가장 합리적인 결과를 얻을 수 있도록 노력할 필요가 있다. Cluster analysis is an exploratory statistical method to search significant structures inherent in a given data set based on similarity or distance among observations. Conventional clustering algorithms are applied to mostly quantitative variables for which a distance can be defined naturally. However, in many application fields we are often confronted with a mixed data set which contains qualitative variables as well as continuous variables. In this study, we compare some clustering methods which are commonly used for such a mixed data by conducting simulations with real data sets. The clustering methods we consider are k-means clustering, two-step clustering and latent class analysis method which can be easily implemented using statistical softwares such as SAS/E-miner, SPSS and Latent GOLD. The comparative simulation results can be helpful to practical researchers considering a cluster analysis with a mixed numeric and categorical data set.

      • KCI등재

        겨울철 일 단위 노면온도 패턴에 대한 군집분석

        황영은,전상아,이민아,윤상후 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.2

        The temperature of the road surface is important for road safety during the winter season. Slip vehicle accidents could occur when the road surface temperature drops below zero. It is known that the road surface temperature is on average 3~5℃ lower than the atmospheric temperature, but the actual observation data differs depending on the weather conditions. Therefore, the daily pattern of the difference between the atmospheric temperature and the road surface temperature is to be clustered. The research data is road meteorological information collected from stationary observation equipment in Jeollabuk-do from November 2017 to December 2020. The daily road surface temperature patterns were clustered after quality control through the climate range test, time variability test, and Kalman filter state model. Gaussian mixed clustering analysis, density-based clustering, and functional cluster analysis were considered. Gaussian mixed clustering analysis was explained well, as a result of evaluating the relationship between the clusters and daily weather information using a decision tree with 5-fold cross-validation. 도로 표면의 온도는 겨울철 도로안전을 위해 중요한 정보이다. 노면온도가 영하로 내려가면 결빙, 적설, 해빙 등에 따른 미끄럼 사고가 발생하기 때문이다. 일반적으로 노면온도는 대기온도에 비하여 평균 3~5℃ 낮다고 알려졌으나 실 관측자료는 기상 상황에 따른 차이가 있다. 따라서 노면온도와 대기온도 간 차이의 패턴을 일 단위로 군집화하고자 한다. 연구자료는 2017년 11월 5일부터 2020년 12월 31일까지 전라북도 지역의 고정식 관측장비로부터 수집된 도로 기상정보이다. 수집한 자료는 관측 시간 단위가 동일하지 않아 기후 범위 검사, 시간 변동성 검사, 칼만 필터 상태모형을 통해 품질관리 후 일 단위 노면온도 패턴을 군집화하였다. 일 단위 노면온도와 대기온도 간 차이는 3개의 주성분으로 축약하여 노면온도와 대기온도 간 패턴을 파악하기 위한 군집분석을 시행하였다. 군집분석 방법으로 가우시안 혼합 군집분석, 밀도기반 군집분석, 그리고 함수적 군집분석이 고려되었다. 군집분석 결과와 일 단위 기상정보 간 관계를 의사결정나무와 5겹 교차검증으로 평가한 결과 가우시안 혼합 군집분석으로부터 생성된 군집이 일 단위 기상정보로 가장 잘 설명되었다.

      • KCI등재

        결측자료 분석에서 결측 비율이 결측자료 k-평균 군집분석에 미치는 영향

        송주원 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.3

        In the analysis of missing data, nonresponse rates have been considered as an important factor to influence on the quality of the analysis, but recent empirical researches show that nonresponse rates are not related to bias of the estimates. These researches consider the effect of nonresponse rates in the estimation of the population mean in survey data, and it is hard to find researches to evaluate the effect of nonresponse rates on other types of analysis. Cluster analysis groups similar observations into the same cluster. Since the main interest of the cluster analysis is on the misclassification rates, not on the estimation of the cluster means, it is necessary to approach this problem differently. This research focuses on k-means cluster analysis when missing values are imputed and evaluates how nonresponse rates are related to misclassification rates. Especially, overlaps on distributions among clusters, missing data mechanisms, and imputation methods are considered as factors that may influence on the quality of the k-means clustering, and a simulation is conducted to evaluate the effect of these factors on the relationship between the nonresponse rates and misclassification rates. When distributions among clusters do not overlap, it shows that nonrespose rates are not related to misclassification rates. 결측자료의 분석에서 결측 비율은 분석의 질에 영향을 주는 주요 요소로 생각되어 왔다. 최근 결측 비율이 추정량의 편향에 영향을 주지 않는다는 연구 결과들이 발표되면서 결측 비율이 향상 분석의 질을 감소시키는 것은 아니라는 주장이 힘을 싣고 있다. 하지만 관련 연구들은 조사 자료에서 결측이 발생한 경우 모집단 평균을 추정하는데 결측 비율이 영향을 주는지를 논의하고 있으며 다른 분석에서의 영향을 평가한 연구는 찾기 힘들다. 군집분석은 자료 내 유사한 특성을 지닌 개체들을 동일한 군집으로 분류하는 분석기법으로 군집의 평균 추정보다는 적절한 분류를 실시하지 못하는 정도에 중점을 두고 분석이 실시되므로 조사 연구에서 모평균 추정과는 다른 문제로 접근하는 것이 필요하다. 본 연구에서는 군집분석 기법 중 하나인 k-평균 군집분석에 대하여 대체를 실시한 후 k-평균 군집분석을 시행할 때 결측 비율이 어떤 영향을 미치는 지 고찰하였다. 특히 k-평균 군집분석의 성능 및 결측자료의 성능과 연관된 요인들인 군집 간 분포의 겹침 정도, 결측자료 메커니즘, 그리고, 결측자료 대체 방법에 따라 결측 비율이 증가할 때 군집분석의 오분류율이 증가하는지 모의실험을 통해 평가하였다. 군집 간 분포의 겹침 정도가 적은 경우 결측비율이 증가해도 오분류율은 비례적으로 증가하지 않는 것으로 나타났다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼