RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        고유벡터공간필터링 접근법에 기반한 피어슨 상관계수의 요소분해

        이상일(Sang-Il Lee) 대한지리학회 2019 대한지리학회지 Vol.54 No.5

        본 논문의 주된 연구 목적은 고유벡터공간필터링 접근법에 기반한 피어슨 상관계수 요소분해 기법을 정련화하고, 이 기법이 공간적 자기상관이 전제된 상태에서의 이변량 상관관계 분석에 어떠한 공헌을 할 수 있을지를 실험 연구를 통해 검토하는 것이다. 피어슨 상관계수 요소분해 기법은 공간적 패턴 요소분해, 하위 상관계수의 산출, 결정계수의 요소분해의 과정을 거쳐 이루어지며, 최종적으로 피어슨 상관계수를 네 가지 상관관계 요소, 즉 ‘잔차-잔차 상관관계 요소(EE)’, ‘공통-공통 상관관계 요소(CC)’, ‘특수-잔차 상관관계 요소(UE)’, ‘잔차-특수 상관관계 요소(EU)’로 분해한다. 피어슨 상관계수 요소분해 기법의 유용성을 검토하기 위해 동일한 피어슨 상관계수 값을 갖지만 서로 다른 수준의 이변량 공간적 자기상관을 보이는 가상의 8개 패턴쌍에 적용하였다. 실험 연구를 통해 밝혀진 주요 내용을 정리하면 다음과 같다. 첫째, 공간적 패턴 요소분해 결과, 공통 패턴 요소와 특수 패턴 요소의 존재/부존재의 양상이 매우 다양하게 나타난다. 둘째, 공간적 패턴 요소의 존재/부존재의 양상과 개별 변수의 일변량 공간적 자기상관의 정도에 따라, 하위 상관계수의 상대적 크기, 그리고 공통 결정계수와 특수 결정계수의 상대적 크기가 다양한 방식으로 나타난다. 셋째, 전체적인 이변량 공간적 자기상관의 수준뿐만 아니라 일변량 공간적 자기상관의 조합 양상에 따라 상관관계 요소분해의 결과는 달라진다. 본 연구는 공간데이터분석의 연구 관행에 새로운 제안을 하고자 하는데, 이변량 혹은 다변량 공간통계분석의 경우, 피어슨상관계수와 그것의 유의성 검정 결과뿐만 아니라 피어슨 상관계수 요소분해 결과도 함께 병기한다면 공간적 자기상관이 상관계수의 팽창/위축에 어떠한 방식과 강도로 작동하는지에 대한 새로운 통찰력을 제공할 수 있을 것으로 기대된다. The main objective of this paper is to propose a refined version of the Pearson’s correlation coefficient decomposition technique and to examine how much contribution the technique can make to our understanding about what happens to the bivariate correlation when spatial autocorrelation is present. The technique employs sequential steps which are the spatial pattern decomposition, the sub-correlation coefficients calculation, and the determination coefficients decomposition, and it finally divides the Pearson’s correlation coefficient into four correlation components, the residual-residual correlation, the common-common correlation, the unique-residual correlation, and the residual-unique correlation components. The applicability and practicality of the technique is assessed on a hypothetical data set composed of 8 pairs which are identical in terms of the Pearson’s correlation coefficient but are different in terms of the level of bivariate spatial autocorrelation. Main findings from the experimental study are as follows. First, individual variables involved in the 8 pairs are diverse in terms of presence/absence of particular spatial pattern components. Second, the relative size and proportion of the sub-correlation coefficients and the sub-determination coefficients turn out to be substantially influenced by the presence/absence of particular spatial pattern components and the relative strength of spatial autocorrelation of two variables. Third, the correlation decomposition results are significantly subject to the relative strength of univariate spatial autocorrelation of each variable as well as the overall level of bivariate spatial autocorrelation. In conclusion, this paper proposes a new research practice that encourages researchers conducting a bivariate or multivariate spatial statistical analysis to report some of the results from the Pearson’s correlation coefficient decomposition analysis in addition to Pearson’s correlation coefficients and their associated p-values, which may lead to a new insight into our understanding about how spatial autocorrelation is involved in the process of inflating/deflating correlation coefficients.

      • KCI등재

        반복평정에 따른 한국무용 연기력 평가방법의 심사자 신뢰도

        정원정 ( Won Chung Chung ),박재현 ( Jae Hyeon Park ) 한국체육대학교 체육과학연구소 2014 스포츠사이언스 Vol.31 No.2

        이 연구는 무용분야 심사자들의 객관성과 일관성을 검증하기 위하여 반복평가한 심사자간 신뢰도와 심사자내 신뢰도를 제시하고 총체적 방법과 분석적 방법간 동형검사 신뢰도를 검증하여 객관적 무용수행능력을 평가를 위한 신뢰로운 평가방법을 제안하는데 이 연구의 목적이 있다· 연구대상은 2007년 부터 2011년 까지 D무용콩쿨 한국 전통무용부분 본선진출자 28명 중 10명을 무선으로 선정하였고, 심사자는 무용분야 전문가 7명으로 선정하였다· 총체적 평가는 100점 척도로, 분석적 평가는 현대무용 연기력 평가척도(강혜영 등, 2005)를 수정 보안한 8개의 항목을 각 10점 척도로 평가하였다· 반복평가방법은 3개월 후 재검사방법을 실시 하였다· 반복평가된 총체적 방법의 심사자간 신뢰도 r=·720, 심사자내 신뢰도 ICC=·845(p<·05)로 나타났으며, 분석적 방법은 심사자간 신뢰도 r=·883, 심사자내 신뢰도 ICC=·636(p<·05)나타났다· 반복평가된 두 평가방법의 심사자간 신뢰도는 Fisher z= -·90, p=·368로(p<·05) 나타났으며, 반복측정된 두 평가방법의 심사자간 신뢰도는 z= -·91 p=·368로(p<·05), 심사자내 신뢰도는 Fisher z=·91, p=·363(p<·05)로 나타났다· 위의 결과 무용수의 연기력을 평가하는 두 방법은 심사자간에는 서로 다른 평가를 하고 있으나, 심사자 집단내에서는 일치된 평가를 하고 있음을 나타내준다· 또한 이 연구의 심사자집단은 무용분야의 전문가들로 반복평정 결과 모두 안정적인 평정을 수행하고 있음을 나타내준다· 무용수행능력을 객관적인프로그램으로 측정하가를 원한다면 신뢰할 만한평가가 적용된 양적으로 측정하는 도구의 개발을 적용하는 것이 필요하며 향후의 연구에서 심사의 경험이 없거나 적은, 즉 숙련되지 않는 심사자들을 대상으로 반복 평정에 따른 총체적 방법과 분석적 방법의 차이를 규명하는 연구가 필요하다· The purpose of this study is to develop and propose methods of reliable objectivity and consistency as judges rating in Korean dance performance by reliability· Reliabilities are measured with inter-class correlation coefficient: Pearson r, intra- class correlation coefficient: ICC, and Fisher``s z transformation· Using by holistic and analytic method to assess Korean dance performance rating· The data is consisted of 7 judge``s assessment for 10 rating score of D dance competition``s participants`` randomized assignment official video· Holistic method assigned for scores range within 100 scale and analytic method assigned for scores each 8 items with 10 scale· After 3 month, assessing used by repeated-measurement that count-balanced designed· Results of repeated meaurement, using holistic method was Pearson r=·720, ICC=·845(p<·05)and, using analytic reliability was r=·883, ICC=·636(p<·05)· Results of repeated measurement, using Fisher``s z transformation of inter-class correlation coefficient, was Fisher z= -·90, p=·368(p<·05), and intra-class correlation coefficient was z= ·91, p=·363(p<·05)· At the conclusion of analyzing, reliability of judges`` rating in Korean dance performance ability between judges correlation coefficient brought by different consistency, reliability of judges`` rating in Korean dance performance within judges correlation coefficient brought by agreeable consistency· Precisely judges of Korean dance performance have assessed stable rating by repeated measurement· As further studies will has been designed and analyzed more reliable assessing method to develop·

      • KCI우수등재

        피어슨 상관계수의 공간화

        이상일(Sang-Il Lee),조대헌(Daeheon Cho),이민파(Minpa Lee) 대한지리학회 2018 대한지리학회지 Vol.53 No.5

        본 연구는 두 변수 간의 상관성을 측정하는데 지배적인 통계기법으로 사용되어 온 피어슨 상관계수를 공간화하는 방식에 대해 다루고 있다. 이변량 공간적 자기상관이 존재할 경우, 피어슨 상관계수값과 그것에 대한 유의성 검정 결과가 갖는 통계학적 의미는 훼손될 수 밖에 없다. 본 연구는 이변량 상관관계에서의 공간적 자기상관의 문제를 해결하기 위해 제시된 세 가지 연구 기법(수정 t-검정, 공간필터 상관계수, 이변량 공간적 자기상관 통계량)에 대한 상세한 리뷰를 제공하고, 다소 독립적으로 발전해 온 세 기법이 얼마나 일관성 있는 결과를 보여주는지를 실험 연구를 통해 살펴보고자 했다. 주요 결과는 다음의 두 가지로 요약된다. 첫째, 몇몇 예외를 제외한다면, 세 가지 접근법의 결과는 상당한 정도의 상호 일관성을 갖는 것으로 나타났다. 즉, L*에 의거해 높은 이변량 공간적 자기상관을 보여주는 패턴 쌍일수록 공간필터 상관계수와 유효표본크기(자유도)는 작은 반면, 유의확률은 높게 나타났다. 둘째, L*와 가장 일관성 있는 결과를 보여준 것은 고유벡터공간필터링(ESF, eigenvector spatial filtering) 기법에 기반한 공간필터 상관계수 기법이었다. 즉, L*가 커질수록 공간필터 상관계수가 감소하는 거의 완벽한 경향성을 보여주었다. 본 연구의 가장 큰 의미는 피어슨 상관계수가 본질적으로 비공간적인 통계량임을 명확히 하고, 이 문제점를 해결하기 위해 제안되어 온 세 접근법이 개별적 특성에도 불구하고 일관성 있는 결과를 보여준다는 점을 실험 연구를 통해 밝혔다는 점이다. This study deals with spatializing the Pearson’s correlation coefficient as a dominant statistical technique for measuring and assessing bivariate relationships. With the presence of bivariate spatial autocorrelation in a pair of variables under investigation, not only Pearson’s correlation coefficients themselves but their statistical significance are deemed to be questionable. This study provides a comprehensive review on the three different approaches to the problem of spatial autocorrelation in the bivariate correlation (modified t-test, spatially filtered correlation coefficients, and bivariate spatial autocorrelation statistics), and examines how compatible the results from the three different camps might be by conducting a simulation experiment. The main findings are twofold. First, with some exceptional cases, the three approaches are quite correspondent to one another in terms of experimental results; the higher the degree of bivariate spatial autocorrelation as measured by L*, the lower the spatially filtered correlation coefficients, the smaller the effective sample size, and the higher the p-values. Second, the most compatible results are found between L* and the spatially filtered correlation coefficients based on the eigenvector spatial filtering (ESF) approach; there is an almost perfect negative relationship between the statistics and the correlation coefficients. The major contribution of this study to spatializing the Pearson’s statistic lies in reaffirming that the statistic is aspatial in nature and in clarifying in an experimental simulation that the three different approaches yield consistent results to some extent.

      • KCI등재

        선형회귀에서 표준화 회귀계수에 대한 소고

        강명욱 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.1

        In most social science research work there are some interests concerning the rank of relative importance of different variables in the regression model. Statistical packages such as SPSS provide the printouts on the standardized coefficient. But many people make cautionary remarks that the rankings of the standardized coefficients in terms of absolute magnitude does not necessarily reflect the importance of variables in explaining the variability of response variable. Many textbooks give warnings against the misuse of this automatic computer generated output. We consider the relationship between this standardized coefficient and the correlation coefficients of various residual plots. And this suggests that the appropriate correlation coefficients may be used in ranking the relative importance of variables. The correlation coefficient derived from added variable plot is a good measure in determining the ranks of variables according to the size of partial t-values for regression coefficient. The correlation coefficient from the additional R^2 plot compares each variable's contribution in terms of additional increase of coefficient of determination over the variability explained by other variables in the model. 대부분의 사회과학분야 연구에서는 다중선형회귀모형에 포함되는 설명변수들의 상대적 중요도에 대해 많은 관심을 가지고 있다. SPSS를 비롯한 여러 상용 통계패키지에서는 표준화 회귀계수의 추정값을 계산해 주고 있으며 표준화 회귀계수의 추정값의 절대값이 큰 설명변수가 중요하다고 해석하기도 하지만 이러한 주장에는 많은 논란이 있다. 여러 회귀분석 교과서에서도 표준화 회귀계수의 맹목적인 사용에 유의할 필요가 있다고 강조하고 있지만 대안은 제시되고 있지 않다. 본 연구에서는 설명변수의 상대적 중요도에 대한 구체적인 의미를 생각해보고 몇 가지 잔차산점도에서의 상관계수와 표준화 회귀계수의 관계를 알아보고 설명변수들의 상대적 중요도를 나타내는 적절한 척도를 제안한다. 추가변수그림의 상관계수는 추가적인 설명력을 검정하는 부분 검정통계량의 크기를 나타내는 척도로 사용될 수 있고, 추가결정계수그림의 상관계수는 설명변수의 추가를 통해서 발생하는 결정계수의 증가분을 나타내는 척도로 사용될 수 있다. 또한 보정계수를 이용하여 이러한 척도들과 표준화 회귀계수와의 관계를 구해본다. 제시된 척도들을 실제 자료에 적용시켜본다.

      • KCI등재

        Real-life decision making based on a new correlation coefficient in Pythagorean fuzzy environment

        P. A. Ejegwa,J. A. Awolola 원광대학교 기초자연과학연구소 2021 ANNALS OF FUZZY MATHEMATICS AND INFORMATICS Vol.21 No.1

        Pythagorean fuzzy set (PFS) is a generalized version of intuitionistic fuzzy set (IFS) with the capacity to manage the situation that cannot be captured by IFS. PFS is characterized by three grades namely; membership grade, non-membership grade and hesitancy grade with the property that the square of sum of the grades is equal to one. The idea of correlation coefficients for measuring the interrelationship between PFSs have been proposed in literature. Nonetheless, these sort of correlation coefficients for PFSs lack precision. Due to this weakness, a new correlation coefficient for PFSs is introduced in this paper. In this study, the Garg's correlation coefficient for PFSs is generalized and modified for better accuracy. Some interesting properties of the proposed correlation coefficient for PFSs are characterized with some results. A set of numerical examples are given to demonstrate the efficiency of the introduced correlation coefficient for PFSs with regard to the existing ones. It appears that the proposed correlation coefficient for PFSs outperforms the ones hitherto studied in literature. Subsequently, some real-life decision-making (RLDM) problems such as pattern recognition problem (e.g., classification of mineral fields) and diagnostic medicine in the framework of Pythagorean fuzzy pairs are discoursed with the aid of the new correlation coefficient. This proposed measuring tool could be exploited in multi-criteria decision-making problems via object oriented approach.

      • KCI등재

        다분상관계수를 이용한 한의학에서의 성격 척도의 요인분석

        동상옥,이시우 한국자료분석학회 2013 Journal of the Korean Data Analysis Society Vol.15 No.1

        Typically, factor analysis uses the Pearson correlation coefficient. But, factor analysis has problems that think of order and categorical as interval variable and should assume normality. Personality questionnaire 1 developed by the Korea Institute of Oriental Medicine can have these problems. Therefore, in this study, factor analysis was conducted using the polychoric correlation coefficient and tested the validity of personality questionnaire 1. In addition, method using the polychoric correlation coefficient and method using Pearson correlation coefficient were compared. Results of the exploratory factor analysis, the number of questions and the items were different. However, both methods, four factors were extracted. Exploratory factor analysis using polychoric correlation coefficient explained 7.653% higher explanatory power than method using Pearson correlation coefficient. 일반적으로 흔히 사용하는 Pearson 상관계수를 이용한 요인분석은 순서형(ordinal), 범주형(categorical) 등의 자료들을 연속형(interval) 변수로 판단하거나 정규성을 만족해야 하는 등의 문제점이 있다. 한국한의학연구원에서 개발한 성격설문1은 이러한 문제점을 가지고 있다고 할 수 있다. 따라서, 본 연구에서는 다분(polychoric) 상관계수를 이용한 요인분석을 실시하여 성격설문1의 타당도를 검증하고, Pearson 상관계수를 이용한 요인분석과의 비교를 실시하였다. 탐색적 요인분석 결과 문항수와 항목은 달랐지만 두 방법 모두 4개의 요인으로 추출되었다. 하지만 다분상관계수를 이용한 탐색적 요인분석이 변량의 설명력을 7.653% 더 높게 설명하였다.

      • KCI등재

        하지 내 상관관계를 통해 본 보행 발달과정

        이경옥(Lee Gyeong Og) 한국여성체육학회 2004 한국여성체육학회지 Vol.18 No.1

        The purpose of this study is to utilize the correlation coefficient to qualitatively analyze the specific characteristics of intra limb coordination and to chart the change of correlation coefficient according to age gait phase The subjects of this study were female children from the ages of one to five. The control group consisted of twenty healthy female college students who had not experienced pregnancy. The The Vicon 370 CCD camera, VCR, video timer, monitor, and ardio visual mixer was utilized to measure the kinematic variables for all test subjects. The sagittal plane had the greatest number of consistent values between children`s and adult`s correlation coefficients. The transverse plane had the second greatest number of consistent value between children`s and adult`s correlation coefficients. The coronal plane showed the least amount of consistent values between children`s and adult`s correlation coefficients. While it is possible to identify independent development with the correlation coefficient. It is impossible to identify the exact nature of independent movement strategies in individual joints through the correlation coefficient. Perfect correlation coefficient and optimized coordination are not the same thing, Sometimes, adult values less than perfect correlation. but adult values are always optimal.

      • KCI등재

        상관성 회귀모형에 대한 비교연구

        김광수,전종준,최호식 한국자료분석학회 2009 Journal of the Korean Data Analysis Society Vol.11 No.6

        다른 변수에 의한 효과를 제거한, 두 변수간의 순수한 선형관계를 살펴볼 수 있는 편상관계수는 상관계수와 더불어 자료분석의 기본적인 방법으로써 널리 사용되고 있다. 그러나, 편상관계수는 정적인 상관관계를 가정을 바탕으로 하고 있기 때문에, 시간에 따라 변하는 동적인 관계를 파악하는 것에는 어느 정도의 제약성이 따른다. 본 논문에서는 두 변수의 상관성에 대해서 다른 변수가 미치는 동적인 영향을 정량적으로 분석할 수 있는 모형을 제안하고자 한다. 이변량 상관성 모형화에 대한 방법으로는 모수적 일반화선형모형과 B-스플라인 기저방법을 활용한 비모수적 Varying Coefficient 회귀모형을 고려하였다. 모의실험을 통해 제안한 두 방법을 평균제곱오차 등의 기준에서 비교한 결과, 모형이 비선형성 강할수록 Varying Coefficient에 근거한 방법이 우수함을 확인하였다. 또한, 실제 환율자료분석에 제안한 모형들을 적용한 결과, 미환율이 높을수록 엔화의 환율변동과 위안화의 환율변동간의 상관성이 증가하는 패턴을 파악할 수 있었다. The partial correlation coefficient is wildly used as a measure which quantifies pure linear correlation between two variables. Since the traditional partial correlation is based on the static distribution, however, it is difficult to model a dynamic partial correlation. In this paper, we consider a regression framework for modeling such a partial correlation. For this, we consider two models which are constructed by Generalized Linear Model and Varying Coefficient Model based on B-spline method. From two simulated data sets, as true model has more nonlinear structure, Varying Coefficient Model performs better than Generalized Linear Model in mean squared error rate. Also, the result of the analysis about foreign exchange rates shows that the correlation of Yen and Yuan exchange rates grows as Dollar exchange rate is higher.

      • KCI등재

        금강 유역의 지하수위와 WHAT SYSTEM을 통하여 산정된 기저유출과의 상관관계 분석

        양정석 ( Jeong Seok Yang ),지동근 ( Dong Keun Chi ) 대한지질공학회 2011 지질공학 Vol.21 No.2

        금강유역의 수위관측소에서 관측된 유량자료와 국가 지하수 관측망에서 관리하는 관측소 지하수위 자료를, 두 관측소간의 거리를(10 km 이내) 고려하여, 선정한 후 수집하였다. 관측된 유량자료를 WHAT SYSTEM이라는 Web GIS 기반의 수문분석 프로그램을 이용하여 유량자료에서 기저유출을 분리하였다. 그 후 기저유출 값과 지하수위간의 상관계수를 분석하였다. 2002년부터 2008년까지 조사한 금강유역 내에서 선정된 총 20개 지역 중 지하수위와 기저유출의 상관계수가 0.5 이상인 경우가 발생한 지역은 12개이고 모든 지역의 전체 관측년도에서 상관계수가 0.5~0.6인 경우는 8개, 0.6~0.7인 경우는 5개, 그리고 0.7 이상인 경우는 12개였다. 같은 지역이라도 연도마다 다른 상관관계를 보여주고 있으며 이는 가뭄이나 홍수가 심했던 연도에서 낮은 상관관계를 보여주는 것으로 분석되었다. 결론적으로 상관계수가 높은 지역에서는, 가뭄이나 홍수가 심하지 않는 연도라면, 지하수위 관측만으로도 기저유량을 추정할 수 있다. Groundwater level data and flowrate data were collected by considering the distance between the groundwater-level gauge station and flowrate gauge station (< 10 km) in the Geum River watershed. Baseflow was separated from the collected flowrate data using the WHAT SYSTEM, which is a Web- and GIS-based tool developed for hydrological applications. Correlation analysis was performed for the separated baseflow and groundwater-level data collected from a site close to the flowrate gauge station. Twenty regions were selected and data sets were collected from 2002 to 2008. Twelve regions yielded a correlation coefficient of > 0.5. When the data sets were analyzed for each year for all 20 regions, we obtained a correlation coefficient of 0.5-0.6 for 8 cases, 0.6-0.7 for 5 cases, and > 0.7 for 12 cases. For individual regions, the correlation coefficient varied from year to year. There was a tendency toward weak correlation in the case of drought or flood. Therefore, under normal conditions (i.e., neither flood nor severe drought), it is possible to estimate the baseflow from nearby groundwater-level data for regions with a high correlation coefficient.

      • KCI등재

        다양한 실제 네트워크에서 클러스터링 계수와 클러스터 경향의 상관관계 분석

        김정은,이재길 한국정보과학회 2015 데이타베이스 연구 Vol.31 No.2

        Clustering has attracted significant attention during the past several years since it is applicable to a wide range of applications. Recently, as social network services became popular, the importance of graph clustering has been widely recognized. However, not all data sets have meaningful cluster structures, and optimizing the objective function of the clustering algorithm is NP-hard. Thus, a preliminary assessment of clusterability of massive data sets is crucial. In this paper, we empirically verified the correlation between clustering coefficient and clusterability using various real-world networks, graph clustering algorithms, and cluster goodness metrics. First, we discovered clusters in each data set by adopting three representative graph clustering algorithms such as Infomap, label propagation, and modularity maximization. Then, we evaluated clusterability based on three representative cluster goodness metrics such as internal density, conductance, and modularity. Finally, we analyzed the correlation between clustering coefficient and clusterability in terms of Pearson correlation coefficient. The experimental results in 14 real-world networks demonstrated that clustering coefficient and clusterability have strong correlation. 다양한 응용 분야에 적용이 가능한 클러스터링 기법은 많은 관심을 받아왔으며, 최근에는 소셜 네트워크 서비스의 폭발적인 증가로 그래프 클러스터링에 대한 중요성이 널리 인식되고 있다. 하지만 모든 데이터 셋이 의미 있는 클러스터 구조를 갖는 것은 아니며 대용량 데이터 셋에서 클러스터링 알고리즘의 목적함수를 최적화 하는 것이 NP-hard이기 때문에 클러스터링 수행 전에 데이터 셋의 클러스터 경향을 판단하는 것은 중요하다. 본 논문에서는 클러스터링 계수와 클러스터 경향의 상관관계를 다양한 실제 그래프 데이터 셋, 그래프 클러스터링 알고리즘, 그리고 클러스터 질적 평가방법을 통해 실험적으로 분석한다. 먼저 각 그래프 데이터 셋에 세 개의 대표적인 그래프 클러스터링 알고리즘(Infomap, Label propagation, Multi-level modularity)을 적용하여 클러스터들을 발견한다. 그리고 발견된 클러스터 각각에 대해 세 가지의 대표적인 클러스터 질적 평가 방법(Internal density, Conductance, Modularity)을 적용하여 클러스터 경향을 평가한다. 마지막으로 클러스터링 계수와 클러스터 경향의 상관관계를 피어슨 상관 계수를 통해 분석한다. 7종의 14개 실제 그래프 데이터 셋에 대해 실험한 결과 클러스터링 계수와 클러스터 경향이 서로 강한 상관관계를 갖는 것을 확인하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼