RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        결측치를 포함한 데이터의 k-평균 군집분석 방법 비교

        양대경(Daegyeong Yang),명재성(Jasung Myung),이승훈(Seunghoon Lee),송주원(Juwon Song) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.6

        군집분석이란 개체 간 유사성을 포착하여 유사한 특징을 공유하는 개체들을 동일 군집으로 모으고 이질적인 개체들을 다른 군집을 정의해내는 비지도 학습 방법이다. 다양한 군집분석 방법이 제안되어 있으며 최적화 군집 방법 중 각 군집의 중심과 개체 간의 유클리디안 거리를 최소화하는 k-평균 군집분석은 가장 기본적인 방법으로 널리 사용되고 있다. 하지만 데이터에 결측이 존재하는 경우, 각 군집의 중심에서 결측이 발생한 개체까지의 거리를 계산하는 것이 불가능하므로 결측자료는 군집으로 분류되지 않는 문제가 발생하며 결측 자료를 제외한 군집분석의 결과는 예측하기 어렵다. 이러한 상황에 대해 대처하기 위해 결측치가 발생하더라도 관측된 정보만을 근거하여 군집분석을 수행하거나 결측치를 대체한 후 군집분석을 수행하는 다양한 방법들이 제안되어 있다. 본 연구에서는 결측 자료를 포함하고 있는 데이터에 대해 k-평균 군집분석을 수행할 방법들을 탐구하였으며, 모의실험을 통해 해당 방법들의 성능을 평가하였다. 모의실험을 통한 평가 결과, 결측치를 대체한 다음 k-평균 군집분석을 수행하는 것이 가장 좋은 성능을 보였으며, 결측치 대체 방법 중에서는 k-최근접 이웃(k-nearest neighbors) 대체가 가장 좋은 성능을 보였다. Cluster analysis is an unsupervised learning method to find heterogeneous clusters that capture similarities among items and separate different items into different clusters. Various cluster analysis techniques have been proposed, and the k-means clustering method, which minimizes the sum of Euclidean distances between cluster centroids and individual entities, is widely recognized as a standard cluster analysis method. When data include missing values, it is challenging to conduct cluster analysis, because it is impossible to calculate distances between centroids of clusters and incomplete items, resulting in excluding classification of these items. Techniques have been suggested to handle missing values in k-means clustering, including conducting cluster analysis after imputation of missing values or cluster analysis based on available information. In this study, we explore methods to perform k-means cluster analysis on data with missing values and evaluate performance of these methods using a simulation. The results of simulation studies indicate that conducting k-means cluster analysis after imputation yields the better performance than the one based on available information. Among the various imputation methods, k-nearest neighbors imputation performed the best.

      • KCI등재

        군집분석을 통한 K리그 축구팀 플레이스타일 분류

        김종원(Jongwon Kim),최형준(Hyongjun Choi) 한국체육측정평가학회 2021 한국체육측정평가학회지 Vol.23 No.1

        본 연구는 2020 K리그 경기에서 발생한 패스 관련 분석인자들을 이용하여 군집분석을 통해 K리그 팀들의 플레이스타일을 알아보고자 하였다. 2020 K리그 모든 팀들의 전 경기(스플릿 후 경기 제외)를 대상으로 하였으며, 연구의 대상이 된 경기 수는 총 132경기였으며, 양 팀의 자료를 각각 고려하였다(n=264). K리그 프로축구연맹 ‘데이터포탈’에서 제공받은 18개의 패스 관련 분석인자들을 Microsoft Office Excel 2007을 이용하여 정리하였고, 그 후 R 3.6.2를 이용하여 자료 처리하였다. 통계적 검증을 위하여 기술통계 분석(descriptive statistics analysis)을 실시한 후, 데이터 마이닝 기법 중 하나인 k-평균 군집분석(k-means cluster analysis)과 교차분석(cross-tabulation analysis)을 실시하였다. 본 연구의 군집분석을 통하여 얻어진 군집의 수는 3개였다. 절반 이상의 팀들이 군집 1에 속하였고, 군집2(전북, 울산, 강원)와 군집3(대구, 광주, 인천)에는 각각 3팀이 속하였다. 최상위 팀인 1위 팀 전북과 2위 팀 울산이 속한 군집2는 다른 군집들과 비교해 공격 1/3지역 패스 비율, 숏 패스 비율, 전진 패스 비율을 제외한 나머지 15개의 분석인자들에서 가장 높은 평균값을 나타냈고, 군집3의 경우 가장 낮은 평균값을 보였다. 분석인자들 간의 유사성을 이용하여 군집을 나누는 방법으로 직접적인 팀의 플레이스타일을 표현하는데 한계가 있지만, 본 연구에서 사용된 분석인자들을 통해 비슷한 유형의 팀들을 군집하는데 의미가 있다. The purpose of this study was to identify the playing styles of football clubs in K-League through cluster analysis using performance indicators related to pass. All matches excepted to split matches were used for analysis and all data were provided from Korea Football League(n=264). All data were preprocessed on Microsoft Office Excel 2007 and statistical analysis was conducted on R 3.6.2. Descriptive statistical analysis was firstly used to calculate means and standard deviations for each performance indicators and then k-means cluster analysis, one of the data mining method, was conducted to identify clusters. Finally, cross-tabulation analysis was used to identify K-League teams into each cluster. Three clusters were identified and Jeonbuk, Ulsan and Gangwon was included in cluster 2 whilst Daegu, Gwangju and Incheon was included in cluster 3. The other teams were included in cluster 1. Cluster 2 had greater performance indicators related to pass rather than other clusters. Although cluster analysis, grouping performance indicators in such a way that performance indicators in the same cluster are more similar each other compared to other clusters, could not determine accurate playing styles in football, it is literally meaningful to group the similar type of teams. There needs to be a great interpretation of the characteristics of the formed clusters.

      • KCI등재

        결측자료의 k-평균 군집분석

        송주원 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.2

        Cluster analysis is an analysis technique to classify observations with similar characteristics into the same cluster. The k-means cluster analysis conducts grouping of observations based on an optimization method minimizing the sum of Euclidean distances between observations and their cluster centers. In real data, missing values often occur in some variables, and when cluster analysis is conducted for missing data, it is common to exclude observations with missing values. However, in this case, missing values cannot be classified into any group, and it may cause biases in estimating cluster centers. Therefore, to include observations with missing values in cluster analysis, it is often to impute missing values and conduct cluster analysis using imputed data. A disadvantage of this imputation approach is to conduct imputation without using cluster information. In this study, we propose methods to impute missing values using cluster information. Simulation is conducted to compare performance of the suggested imputation method with the one based on imputation without using cluster information. The proposed imputation method provides better results than the one ignoring cluster information. 군집분석은 유사한 특성을 지닌 관측치들을 동일한 그룹으로 분류하는 분석 기법이다. k-평균 군집분석은 관측치들과 군집 평균의 유클리디언 거리의 합을 최소화하는 그룹을 찾는 최적화 기법을 통해 자료를 군집으로 분류한다. 실제 자료의 경우 일부 변수에서 결측이 발생하는 경우가 흔하며 결측을 포함한 자료에 대하여 군집분석을 실시하는 경우 결측이 발생한 관측치를 제거한 후 분석을 실시하는 것이 일반적이다. 하지만 이 경우 결측이 발생한 자료는 어느 군집에도 할당할 수 없고 각 그룹의 평균의 추정에 편향이 발생할 가능성이 높다. 따라서 결측치를 포함한 자료를 군집분석에 포함하기 위하여 흔히 사용되는 방법은 결측값에 대해 대체를 실시한 후 대체된 자료에 대하여 군집분석을 실시하는데 이 경우 군집 정보를 포함하지 않고 대체를 실시하는 단점을 지닌다. 따라서 본 연구에서는 결측치에 대한 대체를 실시할 때 군집 정보를 이용하여 대체하는 방법을 제안한다. 모의실험을 통해 본 연구에서 제안한 방법을 군집 정보를 포함하지 않고 대체를 실시한 후 군집분석을 실시하는 경우와 비교하였는데 본 연구에서 제안한 대체 방법이 더 나은 결과를 보였다.

      • KCI등재

        차원축소를 통한 결측자료의 군집분석

        송주원(Juwon Song) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        군집분석은 유사한 특성들을 지닌 관측값들을 같은 군집으로, 다른 특성들을 지닌 관측값들은 서로 다른 군집으로 분류하는 분석 기법이다. 많은 변수를 포함한 고차원 자료에서는 일반적인 군집분석 대신 차원축소를 통하여 군집분석을 실시하는 방법들이 제안되어 왔다. 주성분 분석을 통해 차원을 축소한 후 축소된 차원에서 군집분석을 실시하는 직렬분석 방법보다 차원축소와 군집분석을 결합하여 동시에 실시하는 방법들이 더 우수한 성능을 보인다는 것이 알려져 있다. 한편, 대부분의 자료는 결측값을 포함하고 있는데 결측값이 포함된 자료에 대하여 군집분석을 실시하는 경우 불완전하게 관측된 자료들은 어느 군집으로도 분류되지 않는 문제가 발생한다. 따라서 군집분석을 실시하기 전에 먼저 결측값 대체를 실시하는 것이 일반적이다. 본 연구에서는 고차원 결측자료에 대하여 차원축소를 통한 k-평균 군집분석을 실시할 때 결측값 대체를 결합하여 실시하는 방법을 제안한다. 이 방법은 군집 정보를 이용한 결측값 대체를 통해 정확한 차원축소를 통한 군집분석이 가능하게 하는 장점을 지닌다. 제안된 방법은 모의실험을 통해 성능을 평가하였고 결측값을 대체한 후 대체된 자료에 대하여 차원축소를 통한 군집분석을 실시하는 직렬식 분석방법과 비교하였다. 제안된 방법은 적절한 차원축소를 통한 k-평균 군집분석을 실시한다면 직렬식 분석보다 오분류율이 낮게 나타났다. Cluster analysis classify similar observations into the same cluster and different observations into different clusters. When data include many variables, reduced dimension clustering methods have been suggested instead of the standard clustering methods. The joint analysis of dimension reduction and clustering is known to perform better than tandem analysis that sequentially conducts dimension reduction and clustering. On the other hand, most data include missing values. When cluster analysis is conducted with incomplete data, incomplete observations can not be classified into any group. To avoid this problem, it is common to impute missing values before conducting cluster analysis. In this study, we suggest a method for combining dimension reduction k-means clustering and missing data imputation. The suggested method has an advantage to accurate classify observations through imputation using cluster information. A simulation is conducted to evaluate performance of the suggested method and compare the result with the one based on tandem analysis. The suggested method using an appropriate dimension reduction k-means clustering showed lower misclassification rates than tandem analysis.

      • KCI등재

        확률적 reduced $K$-means 군집분석

        이승훈,송주원 한국통계학회 2021 응용통계연구 Vol.34 No.6

        라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 $K$-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 $K$-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced $K$-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced $K$-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다. Cluster analysis is one of unsupervised learning techniques used for discovering clusters when there is no prior knowledge of group membership. $K$-means, one of the commonly used cluster analysis techniques, may fail when the number of variables becomes large. In such high-dimensional cases, it is common to perform tandem analysis, $K$-means cluster analysis after reducing the number of variables using dimension reduction methods. However, there is no guarantee that the reduced dimension reveals the cluster structure properly. Principal component analysis may mask the structure of clusters, especially when there are large variances for variables that are not related to cluster structure. To overcome this, techniques that perform dimension reduction and cluster analysis simultaneously have been suggested. This study proposes probabilistic reduced $K$-means, the transition of reduced $K$-means (De Soete and Caroll, 1994) into a probabilistic framework. Simulation shows that the proposed method performs better than tandem clustering or clustering without any dimension reduction. When the number of the variables is larger than the number of samples in each cluster, probabilistic reduced $K$-means show better formation of clusters than non-probabilistic reduced $K$-means. In the application to a real data set, it revealed similar or better cluster structure compared to other methods.

      • KCI등재후보

        다차원 데이터의 군집분석을 위한 차원축소 방법: 주성분분석 및 요인분석 비교

        홍준호 ( Jun-ho Hong ),오민지 ( Min-ji Oh ),조용빈 ( Yong-been Cho ),이경희 ( Kyung-hee Lee ),조완섭 ( Wan-sup Cho ) (사)한국빅데이터학회 2020 한국빅데이터학회 학회지 Vol.5 No.2

        본 논문은 농식품 소비자패널 데이터에서 소비자의 유형을 나눌 때에 변수간 연관성이 많은 장바구니 분석에서 전처리 방법과 차원축소의 방법을 제안한다. 군집분석은 다변량 자료에서 관측 개체를 몇 개의 군집으로 나눌 때 널리 사용되는 분석기법이다. 하지만 여러 개의 변수가 연관성을 가진 경우에는 차원축소를 통한 군집분석이 더 효과적일 수 있다. 본 논문은 1,987 가구를 대상으로 조사한 식품소비 데이터를 K-means 방법을 사용하여 군집화하였으며, 군집을 나누기 위해 17개의 변수를 선정하였고, 17개의 다중공선성 문제와 군집을 나누기 위한 차원축소의 방법 중 주성분 분석과 요인분석을 비교하였다. 본 연구에서는 주성분분석과 요인분석 모두 2개의 차원으로 축소하였으며 주성분분석에서는 3개의 군집으로 나뉘었지만 분석하고자 하였던 소비 패턴에 대한 군집의 특성이 잘 나타나지 않았으며 요인분석에서는 분석가가 보고자 하는 소비 패턴의 특징이 잘 나타났다. This paper proposes a pre-processing method and a dimensional reduction method in the analysis of shopping carts where there are many correlations between variables when dividing the types of consumers in the agri-food consumer panel data. Cluster analysis is a widely used method for dividing observational objects into several clusters in multivariate data. However, cluster analysis through dimensional reduction may be more effective when several variables are related. In this paper, the food consumption data surveyed of 1,987 households was clustered using the K-means method, and 17 variables were re-selected to divide it into the clusters. Principal component analysis and factor analysis were compared as the solution for multicollinearity problems and as the way to reduce dimensions for clustering. In this study, both principal component analysis and factor analysis reduced the dataset into two dimensions. Although the principal component analysis divided the dataset into three clusters, it did not seem that the difference among the characteristics of the cluster appeared well. However, the characteristics of the clusters in the consumption pattern were well distinguished under the factor analysis method.

      • KCI등재

        구성타당도 평가에서 성분점수에 의한 변수 군집분석의 활용

        윤이나,강현철 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.2

        Valid and reliable measurement instruments are essential components in all the studies. Since the interpretation of results is dependent on the validity of the measurement instrument, the researcher must verify the validity of the instrument. Validity of an instrument denotes how much it measures what is supposed to. Its measuring is difficult and challenging and take a lot of time. Factor analysis is considered one of the strongest which is more commonly used for establishing the construct validity measured by an instrument. However, in the view of grouping variables, the model of factor analysis has too many unrealistic assumptions, and the model building and interpretation of the results in factor analysis have a lot of difficulties. Variable clustering can be used as a variable-reduction method. A large set of variables can often be replaced by the set of cluster components with little loss of information. A given number of cluster components does not generally explain as much variance as the same number of factors on the full set of variables, but the cluster components are usually easier to interpret than the factors, even if the latter are rotated. In this paper, we introduce variable clustering technique, which divides a set of variables into disjoint of hierarchical clusters. Associated with each cluster is a linear combination of the variables in the cluster. Especially, we discuss the usefulness of variable clustering as a tool of assessment of construct validity. 타당하고 신뢰로운 측정도구는 모든 연구에 있어서 필수적인 구성요소이며, 연구결과에 대한 해석은 측정도구의 타당성에 의존하므로 연구자는 측정도구의 타당도를 검증해야 한다. 타당도(validity)란 그 측정도구(검사)가 원래 측정하려 했던 것을 실제로 잘 측정하는가를 의미한다. 일반적으로 타당도 분석방법은 크게 내용타당도, 준거타당도, 구성타당도로 구분되는데 이러한 타당도를 평가하는 과정에는 여러 가지 통계분석 기법들이 사용된다. 측정도구의 구성타당도(construct validity) 분석은 검사도구가 심리적 구성개념을 제대로 측정하고 있는지를 평가하는 방법이다. 구성타당도 분석은 쉽지 않고 시간소모적인 여러 절차들이 포함될 수 있는데, 인자분석은 하나의 개념을 측정하는 도구가 여러 하위개념을 구분하여 측정한다고 가정하는 경우 구성타당도 분석을 위해 가장 널리 사용되는 통계적 분석기법이다. 그러나 변수 군집화의 관점에서 본다면 인자분석의 모형은 너무 많은 비현실적인 가정들을 내포하고 있으며, 모형구축 및 결과의 해석에 많은 난점을 가지고 있다. 변수 군집분석(variable cluster analysis)은 변수의 군집화라는 직접적인 목적을 수행하며, 차원의 축소, 변수들 간의 상호의존관계 분석이라는 관점에서는 인자분석 등의 다변량분석 방법 등과도 밀접한 관련을 가지고 있다. 본 연구에서는 다변량분석 방법의 관점에서, 군집성분을 이용한 변수 군집분석과 탐색적/확증적 인자분석의 수행, 결과의 해석, 이들 분석방법들 간의 관계 등을 살펴볼 것이다. 특히 문항의 구성타당도를 평가하기 위한 도구로서 변수 군집분석의 유용성에 대하여 논의할 것이다.

      • KCI등재

        범주형 자료에 대한 군집분석 비교연구

        장현,김규곤,강창완 한국자료분석학회 2014 Journal of the Korean Data Analysis Society Vol.16 No.5

        In customers satisfaction survey, using individual (not summated) Likert-type items as measurement tools is common. When the data is obtained by Likert type scales, the cluster analysis must be performed carefully. In general, many clustering techniques were developed for the continuous data. However, a large amount of categorical data is coming from various research areas. Recently, new techniques have been developed for analysis of such a kind of the data. In this paper, we compare some clustering methods, that is, clustering based on Hamming distance, two-step clustering and k-means clustering using modified Fisher’s Iris data. As a result of small simulation, two-step method is the best of all in correction rates. Thus, we applied the two step clustering to the student satisfaction survey data of D university. Then we found the two clusters, one is a satisfied group and the other is a unsatisfied group. 고객만족도 조사연구에서 개별 리커트 척도 사용은 매우 일반적이다. 이러한 리커트 척도에 의해 얻어진 데이터에 대한 군집분석은 주의를 기울일 필요가 있다. 보통 많이 적용하고 있는 일반적 군집분석은 연속적 데이터 즉 수치형 척도에 의해 얻어진 데이터에 적합한 경우가 대부분이다. 반면 리커트 척도와 같은 이산형 혹은 범주형 데이터에 대한 군집분석 방법은 최근 연구가 많이 이루어지고 있는 실정이며 본 연구에서는 Hamming 거리를 이용한 군집기법, 이단계(two-step) 군집분석 그리고 k-means 방법과 비교를 하고 이중 가장 성능이 우수한 방법으로 실제 사례에 적용해본다. 비교는 Fisher의 붓꽃자료를 이산형으로 변형한 데이터로 모의실험을 하였고, 이때 가장 정분류율이 높은 이단계 군집방법을 이용하여 D대학 2013년 학생 만족도 조사로 얻어진 범주형 자료에 대한 군집분석을 적용하여 보았다. 군집분석을 통하여 충성도가 높은 학생 군과 낮은 학생 군을 찾고 두 군간의 특징으로 학점을 고려하였으나 통계적 차이는 나타나지 않았다.

      • KCI등재

        엑셀 VBA를 이용한 군집분석법의 구현

        송일성,윤민정 한국자료분석학회 2008 Journal of the Korean Data Analysis Society Vol.10 No.2

        There exist several methodology for structural simplification of multivariate data. Cluster analysis is multivariate statistical technique for grouping objects based on the basis of similarities or distances(dissimilarities) and understanding the relationship between groups. Cluster analysis is an exploratory technique for searching natural groups in that no assumptions are made concerning the number of groups or the group structure. Cluster analysis can be done by statistical packages like SAS, SPSS, etc. In this paper, we develope cluster analysis procedure using Excel VBA program, which provides simple process and easy interpretation. A case study was performed by Excel Macros developed in this paper. The result is identical with that performed by SAS or SPSS. 다변량 자료를 구조적으로 단순화시키는 분석방법에는 여러 가지가 있다. 군집분석은 다양한 특성을 지닌 연구대상의 객체들을 유사성행렬이나 비유사성행렬에 기초하여 몇 개의 집단으로 분류한 후 군집간의 관계 등을 체계적으로 연구하고자 하는 다변량 분석방법이다. 이와 같은 군집분석은 군집들의 개수나 구조에 관한 가정 없이 자연스런 군집을 찾아 나가는 탐색적 분석방법이다. 군집분석은 SAS나 SPSS등의 범용 통계패키지를 이용하여 분석할 수 있다. 본 논문에서는 일반인이 스프레드시트 프로그램으로 널리 이용하는 엑셀에서 군집분석을 사용하여 다변량 자료를 분석할 수 있도록 엑셀 VBA로 프로그램을 개발하여 소개한다. 또한 구현된 엑셀 매크로를 사용하여 응용사례에 대한 군집분석의 실행과정을 보여준다. 그 결과는 범용 통계패키지인 SAS나 SPSS를 이용한 분석결과와 동일하다.

      • KCI등재

        재표본 방법을 이용한 군집화 불안정성 측정에 관한 연구

        백아현,이성건 한국자료분석학회 2013 Journal of the Korean Data Analysis Society Vol.15 No.6

        In cluster analysis, it is important to estimate the number of clusters. Many ways to determine the number of cluster have been proposed such as Calinski, Harabasz (1974), Hartigan (1975), Krzanowski, Lai (1985). Most of them are based on the between cluster and/or within-cluster sum of squared distances. Recently, researches on the stability of the clustering have been studied. It has been proposed to select the number of clusters as the one minimizing the clustering instability (Wang, 2010; Fang, Wang, 2012). Also, Wang (2010) and Fang, Wang (2012) developed an estimate scheme for clustering instability based on bootstrap and cross-validation. In this study, we define the clustering instability by using measure of association such as kappa coefficient, Jaccard coefficient, phi coefficient. The proposed methods are demonstrated on a variety of numerical experiments using the simulation and real data application. The simulation study and real application showed that the hit ratio of the proposed method is higher than the previous methods. As a result, we know that the methods using measures of association are competitive. 다변량 분석 중 군집분석(cluster analysis)은 주어진 관측개체를 몇 개의 군집으로 나눔으로써 군집을 이해하고 효율적으로 활용하기 위한 분석방법이다. 군집분석에서 군집의 적절한 개수를 추정하는 것은 중요한 문제이며 지금까지 많은 연구가 진행되어왔다. 군집의 개수를 결정하는 방법들의 대부분은 군집내의 제곱거리와 군집간의 제곱거리를 이용하는 것이다. 하지만 연구자의 주관적인 의견이 많이 반영되고 정확한 결과를 제공해주지 못한다는 문제점이 있다. 최근에는 군집내, 군집간의 거리개념을 넘어서 군집의 안정성에 관한 연구도 많이 진행되고 있다. 특히 군집화 불안정성을 최소화하는 군집개수를 최적의 군집개수로 결정하는 알고리즘들이 제안되었다(Wang, 2010; Fang, Wang, 2012). 본 연구에서는 기존의 방법을 개선하여 연관성측도로 군집화 불안정성을 측정하는 새로운 군집개수 결정 알고리즘을 제안하였다. 실제 데이터에 새로운 방법을 적용시킨 결과, 기존 방법보다 군집개수 결정에서 우수함을 확인할 수 있었다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼