        전화조사의 체계적 편향 - 2007년 대통령선거 여론조사들에 대한 메타분석 -

        김세용,허명회,Kim, Se-Yong,Huh, Myung-Hoe 한국통계학회 2009 응용통계연구 Vol.22 No.2

        For 2007 Korea presidential election, most polls by telephone surveys indicated Lee Myung-Bak led the second runner-up Jung Dong-Young by certain margin. The margin between two candidates can be estimated accurately by averaging individual poll results, provided there exists no systematic bias in telephone surveys. Most Korean telephone surveys via telephone directory are based on quota samples, with the region, the gender and the age-band as quota variables. Thus the surveys may result in certain systematic bias due to unbalanced factors inherent in quota sampling. The aim of this study is to answer the following questions by the analytic methods adopted in Huh et al. (2004): Question 1. Wasn't there systematic bias in estimates of support rates. Question 2. If yes, what was the source of the bias? To answer the questions, we collected eighteen surveys administered during the election campaign period and applied the iterated proportional weighting (the rim weighting) to the last eleven surveys to obtain the balance in five factors - region, gender, age, occupation and education level. We found that the support rate of Lee Myung-Bak was over-estimated consistently by 1.4%P and that of Jung Dong-Young was underestimated by 0.6%P, resulting in the over-estimation of the margin by 2.0%P. By investigating the Lee Myung-Bak bias with logistic regression models, we conclude that it originated from the under-representation of less educated class and/or the over-representation of house wives in telephone samples. 2007년 12월의 대통령선거 과정에서 행해진 수많은 전화 여론조사에서 이명박 후보가 일관되게 앞자리를 지켰다. 많은 수의 여론조사가 시행되는 경우 개별 여론조사의 표본추출오차는 상쇄되어 소멸한다. 그러나 일정한 편향은 많은 수의 조사가 실행된다 하더라도 잔존하므로 중요한 문제가 아닐 수 없다. 우리나라의 전화조사는 지역, 성과 연령대를 고려한 할당추출(quota sampling)을 사용하며 대부분 전화번호부를 표집 틀로 한다. 조사 거절률도 높은 편이다. 이에 따라 조사표본들이 할당변인 외의 인구사회적 속성에서 모집단을 잘 대표하지 못할 수 있다. 이 연구의 목적은 허명회 등 (2004)의 연구 방법른을 2007년에 수행된 대통령선거 여론조사 L8개 사례에 적용하여 다음 물음에 답하는 데 목적이 있다. - 물음 1. 각후보에 대한 선호도 또는 지지율에 체계적 편향이 있지 않았는가? - 물음 2. 편향이 있었다면, 그 원인이 어디에 있는가? 첫째 물음에 답하기 위하여 2007년 11월 이후 시행된 11개 사례 자료에 지역, 성과 연령대 외에 직업과 학력까지 고려한 반복비례가중법(rim weighting)을 적용해보았다. 그 결과, 이명박 후보의 지지율이 평균 1.4%P 과다 추정되었던 것으로 나타났다. 반면, 정동영 후보의 지지율은 평균 0.6%P 과소 추정되었고 이에 따라 두 후보간 지지율 차이가 2.0%P (= 1.4+0.6) 과다하게 추정되었던 것으로 보여진다. 둘째 물음에 답하기 위하여 위의 11개 사례 자료에서 이명박 후보 지지를 종속변수로 하는 로지스틱 회귀 분석을 하였다. 그 결과, 전화조사 표본에서의 저학력자 과소 및 가정주부의 과다가 이명박 편향의 원인이 되는 것으로 밝혀졌다.

      • KCI등재

        법(法)과 통계학: 교육, 응용 및 연구

        허명회,Huh, Myung-Hoe 한국통계학회 2010 응용통계연구 Vol.23 No.4

        사법 개혁의 일환으로 2009년 3월에 법학전문대학원(law school) 체제가 출발하여 향후 우리사회의 법적 풍토는 다양화 전문화 국제화의 방향으로 전환될 것으로 보인다. 이런 시류에 맞추어 $\ll$법(法)과 통계학$\gg$의 교과 교육, 통계적 방법론의 법 분야 응용, 관련 토픽에 대한 통계학 연구에 대한 시론과 예를 제시하고자 한다. As an effort to reform legal system of Korea, the law school system is introduced in March 2009. Thus the law culture of Korea is expected to change drastically for diversification, specialization and globalization. With such social trend as background, the author writes on the pre-law and law school courses "Law and Statistics" which were offered at Korea University. Also, he reviews two legal cases and summarizes two research results: DNA database controversies and a sentence standardization model.

      • KCI등재

        수량화 제3 방법의 축소 해

        허명회,이용구,Huh Myung-Hoe,Lee Yong-Goo 한국통계학회 2006 응용통계연구 Vol.19 No.2

        수량화 제3방법은 일본의 하야시(Hayashi)에 의해 창안된 교차표 분석 기법으로 사회조사 및 마케팅 조사 자료의 분석에서 매우 유용하다. 그러나 반응빈도가 작은 일부 범주들이 특이하게 큰 수량화 값을 갖는 경우가 있어 불안정한 과잉 해석으로 이어지기도 한다. 본 교신은 이 문제를 해결하고자 한 연구로서 수량화 제3방법을 새로 정식화하고 축소 해 (shrinkage solution)를 제안할 것이다. 그리고 실제 조사 자료에 새 방법론을 적용해 보고자 한다. Quantification method III is designed by C. Hayashi as visualizing technique for two-way cross-classified tables. Specially in Japan, its usefulness is timely proven in social and marketing surveys. In several instances, relatively large quantification scores are assigned to low-frequency categories. Thus, they lead to unreliable data interpretation. The aim of this study is to develop stable solution to overcome such traits of quantification method III. The solution is of shrinkage type induced by small perturbations and is applied to a multiple response data obtained in a Korean social survey.

      • KCI등재

        통계학 용어의 증보

        허명회,Huh, Myung-Hoe 한국통계학회 2021 응용통계연구 Vol.34 No.4

        통계학 용어의 국문화에 관련하여 1980년대 이래 한국통계학회의 활동을 돌아보고 2000년 이래 대두된 새 용어들을 제안한다. 기계학습과 관련된 통계학 용어가 속히 정립되어야 하고 전통적 용어들에 대하여도 지속적인 업데이트가 필요하다. The author reviews the past 40-year activities on Korean translation of statistical terms within the Korean Statistical Society since 1980's and proposes a number of recent terms of statistical machine learning.

      • KCI등재

        다목적 다변량 자료분석을 위한 변수선택

        허명회,임용빈,이용구,Huh, Myung-Hoe,Lim, Yong-Bin,Lee, Yong-Goo 한국통계학회 2008 응용통계연구 Vol.21 No.1

        다변량 자료분석에서 최근의 추세는 관측개체의 수 n이 커지는 외에 변수의 수 p가 큰사례들이 많아지고 있다는 것이다. n개 개체 각각에서 획득된 p개 변수들 $X_1$, $X_2$, $\ldots$, $X_p$ 가운데는 이름이나 개념적으로는 구분이 가능하지 만 실제로 거의 중복이 되는 변수들이 있을 수 있는데, 이들 변수들이 모두 분석에 포함되면 여러 문제가 유발될 수 있다. 예컨대 주성분 분석이나 인자분석에서는 중복 변수들이 주축(主軸, principal axis) 결정에, 관측개체 군집 화에서는 개체간 거리 산출에 왜곡된 영향을 줄 수 있다. 또한 목적변수가 지정된 지도학습(supervised learning)에서 설명변수들의 중복성은 추정모형의 안정성을 해치는 결과를 초래한다. 실제 자료 분석에서는 한 자료 세트가 여러 기법으로 탐색되고 다수의 모형이 추출되므로 변수세트를 최대한 절약적(parsimonious)으로 구성할 필요가 있다. 본 연구의 목적은 $X_1$, $X_2$, $\ldots$, $X_p$ 중에서 필요한 변수들은 선적하고 불필요한 변수들은 제거함으로써 주어진 변수세트를 보다 적은 크기의 변수세트로 대치하는 방법을 제시하는 데 있다. 제안 방법을 몇 개의 수치적 사례에 적용해 봄으로써 선적 변수와 제거변수간 관계의 시각화, 회귀모형에서의 유용성, 범주형 자료분석에서의 활용 등에 대해 논의 하고자 한다. Recently we frequently analyze multivariate data with quite large number of variables. In such data sets, virtually duplicated variables may exist simultaneously even though they are conceptually distinguishable. Duplicate variables may cause problems such as the distortion of principal axes in principal component analysis and factor analysis and the distortion of the distances between observations, i.e. the input for cluster analysis. Also in supervised learning or regression analysis, duplicated explanatory variables often cause the instability of fitted models. Since real data analyses are aimed often at multiple purposes, it is necessary to reduce the number of variables to a parsimonious level. The aim of this paper is to propose a practical algorithm for selection of a subset of variables from a given set of p input variables, by the criterion of minimum trace of partial variances of unselected variables unexplained by selected variables. The usefulness of proposed method is demonstrated in visualizing the relationship between selected and unselected variables, in building a predictive model with very large number of independent variables, and in reducing the number of variables and purging/merging categories in categorical data.

      • KCI등재

        PLS 기법에 의한 (X,Y) 자료의 시각화

        허명회,이용구,이성근,Huh, Myung-Hoe,Lee, Yong-Goo,Yi, Seong-Keun 한국통계학회 2007 응용통계연구 Vol.20 No.2

        PLS 회귀는 q-변량의 Y 변수에 대한 회귀에서 p-변량의 X 변수가 다중공선성의 문제를 갖는 경우에도 적용 가능한 방법이다. 특히 X 변수의 수 p가 관측개체 수 n보다 큰 경우에 적용 가능하여 계량화학(chemometrics) 분야에서 근적외선 분광기(near-infrared spectroscopy) 자료에 대한 표준적 분석 방법으로 활용되고 있다. 이 연구에서 우리는 PLS회귀의 방법론을 정리하고 이를 활용한 p개의 X 변수들과 q개의 Y 변수들의 동시 시각화를 위한 두 가지의 수량화 방법을 제안한다. PLS methods are suited for regressing q-variate Y variables on p-variate X variables even in the presence of multicollinearity problem among X variables. Consequently, they are useful for analyzing datasets with smaller number of observations compared to the number of variables, such as NIR(near-infrared) spectroscopy data in chemometrics. In this study, we propose two visualizing methods of p-variate X variables and q-variate Y variable that can be used in connection with PLS analysis.

      • KCI등재

        연속형 자료에 대한 나무형 군집화

        허명회,양경숙,Huh Myung-Hoe,Yang Kyung-Sook 한국통계학회 2005 응용통계연구 Vol.18 No.3

        본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 개발하고 활용 예를 보인다. 노드 분리 기준으로는 Overall R-Square를 채택하였고 실용적인 노드 분리 결정 방법을 제안하였다. 이 방법은 연속형 자료에 대하여 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다. 환용 예로서 Fisher의 붓꽃데이터와 Telecom 사례에 적용해 보았다. K-평균 군집화와 다른 몇 가지 사항이 관측되었다. The aim of this study is to propose a clustering method, called tree-structured clustering, by recursively partitioning continuous multivariate dat a based on overall $R^2$ criterion with a practical node-splitting decision rule. The clustering method produces easily interpretable clustering rules of tree types with the variable selection function. In numerical examples (Fisher's iris data and a Telecom case), we note several differences between tree-structured clustering and K-means clustering.

      • KCI등재

        불완전 순위 자료를 위한 몬테칼로 임의순열 검정

        허명회,최원,Huh, Myung-Hoe,Choi, Won 한국통계학회 2001 응용통계연구 Vol.14 No.1

        본 소고는 n명의 심사자가 k개의 객체를 평가하여 얻어진 불완전 순위자료에서 객체간 선호도에 있어 차이가 없다는 영가설을 검정하는 방법에 관한 연구이다. 주어진 자료에서 결측값들을 다중대체하는 방식을 제안하고 이들을 평균 p-값으로 묶는 몬테칼로방식의 임의순열 검정을 제안한다.

      • KCI등재

        화투 섞기의 과학

        허명회,이용구,Huh, Myung-Hoe,Lee, Yong-Goo 한국통계학회 2010 응용통계연구 Vol.23 No.6

        48장의 화투패가 섞어지는 과정을 수학적으로 기술하고 그것이 완전히 섞여지기 위해서 몇 번을 반복해 쳐야 하는가에 대한 답을 제시한다. 또한 그보다 작은 횟수로 치는 경우 예상되는 불완전한 임의성의 형태를 밝힌다. We describe shuffling process of 48 HwaTu(Flower) cards from a mathematical aspect and give the number of shuffles that are needed to arrive at a state of randomness. We observe that the cards are shuffled much less times in usual plays, that results in much riskier outcomes.

      • KCI등재

        고등학교 수학 I "통계"에 대한 고찰

        허명회,Huh, Myung-Hoe 한국통계학회 2007 응용통계연구 Vol.20 No.1

        제7차 교육과정 고등학교 수학 I의 통계 단원을 논리의 정 합성 측면에서 살펴보았다. 검토 결과 큰 수의 법칙에서 신뢰구간에 이르기까지 수리적 연결이 곳곳에서 끊어져 있어, 고교 수학 수업에 무리가 있는 것으로 보인다. 개선 방안으로, 1) 몇 가지 요목에 대한 고교 수준에서 교수 가능한 논거를 제시하고 2) 교수 요목의 변경 또는 축소를 제안한다. The statistics chapter in High School Mathematics I as implemented in The 7th Curriculum is reviewed critically. In views from mathematical integrity or logic, the current contents are not satisfactory in several key issues. Specific instances are the law of large numbers, normal distribution and confidence intervals for population mean. We suggest alternative teaching points to handle such difficulties and propose re-structuring the course syllabus with reduced items.

