        이변량 제로팽창 음이항 회귀모형에서 베이지안 추론

        심정숙,이동희,정병철 한국자료분석학회 2013 Journal of the Korean Data Analysis Society Vol.15 No.4

        본 논문에서는 이변량 제로팽창 음이항 회귀(bivariate zero-inflated negative binomial; BZINB) 모형에서 회귀계수에 대한 추론방법으로 마코프체인몬테카를로(MCMC) 기법을 이용한 베이지안 추론방법을 제안하였다. 본 연구에서 고려한 BZINB 회귀모형은 반응변수의 제로팽창과 과대산포를 동시에 고려해줄 수 있는 모형으로 이변량 음이항 회귀모형에 비하여 좀 더 일반적인 모형이다. 이 모형에서 반응변수의 평균뿐만 아니라 제로팽창확률에 대한 설명변수의 효과를 알아보기 위한 회귀모형을 고려하였다. 이는 일변량 제로팽창 음이항 회귀모형에서 베이지안 추론방법을 제안한 Shim et al.(2011)의 연구를 이변량으로 확장한 것이다. 아울러 실제사례에 본 연구에서 제안한 베이지안 추론방법을 적용하고 제로팽창을 허용하지 않는 이변량 음이항(bivariate negative binomial; BNB) 회귀모형과 적합결과를 비교하였다. 실제 사례분석 결과 BZINB 회귀모형의 DIC(deviance information criterion)가 BNB 모형보다 작게 나타나 BZINB 회귀모형이 BNB 회귀모형보다 잘 적합되었음을 알 수 있었다. In this paper, we propose a Bayesian inference using the Markov Chain Monte Carlo (MCMC) method for the bivariate zero inflated negative binomial regression model. The proposed model allows the zero inflation as well as the overdispersion of dependent variables. Therefore, it becomes more general than bivariate negative binomial models. In this framework, we construct a regression model to coincide zero inflation probabilities and the means of dependent variables. It extends the work of Shim et al. (2012) who studied the Bayesian inference for the univariate zero inflated negative binomial model, and so this research can be thought as an extension to the bivariate zero inflated negative binomial regression model. Since the proposed model is expected to perform better than the other, we apply it to a real data example, and compare the efficiency with the bivariate negative binomial regression model using the deviance information criterion (DIC). Our proposed model shows the better performance than the bivariate negative binomial regression model in bivariate zero inflated count data with overdispersion, since the DIC of the proposed model is smaller than that of the bivariate negative binomial regression model.

      • KCI등재

        영과잉을 고려한 중심상업지구 교통사고모형 개발에 관한 연구

        이상혁,우용한 한국도로학회 2016 한국도로학회논문집 Vol.18 No.4

        PURPOSES : The purpose of this study was to develop safety performance functions (SPFs) that use zero-inflated negative binomial regression models for urban intersections in central business districts (CBDs), and to compare the statistical significance of developed models against that of regular negative binomial regression models. METHODS : To develop and analyze the SPFs of intersections in CBDs, data acquisition was conducted for dependent and independent variables in areas of study. We analyzed the SPFs using zero-inflated negative binomial regression model as well as regular negative binomial regression model. We then compared the results by analyzing the statistical significance of the models. RESULTS : SPFs were estimated for all accidents and injury accidents at intersections in CBDs in terms of variables such as AADT, Number of Lanes at Major Roads, Median Barriers, Right Turn with an Exclusive Turn Lane, Turning Guideline, and Front Signal. We also estimated the log-likelihood at convergence and the likelihood ratio of SPFs for comparing the zero-inflated model with the regular model. In he SPFs, estimated log-likelihood at convergence and the likelihood ratio of the zero-inflated model were at -836.736, 0.193 and -836.415, 0.195. Also estimated the log-likelihood at convergence and likelihood ratio of the regular model were at -843.547, 0.187 and -842.631, 0.189, respectively. These figures demonstrate that zero-inflated negative binomial regression models can better explain traffic accidents at intersections in CBDs. CONCLUSIONS : SPFs that use a zero-inflated negative binomial regression model demonstrate better statistical significance compared with those that use a regular negative binomial regression model.

      • 범죄와 비행 연구의 가산자료 회귀분석 모형 활용에 대한 검토

        신동준 ( Dong Joon Shin ) 한국범죄비행학회 2011 범죄와 비행 Vol.1 No.-

        대부분의 범죄학 연구에서 종속변인이 되는 범죄와 비행은 그 속성 상 사건(event)의 성격을 갖는다. 따라서 많은 경우 종속변인은 사건이 발생한 횟수를 값으로 하는 가산자료(count data)의 분포를 보인다. 이 경우 일반적인 회귀모형인 보통최고제곱(OLS) 모형의 주요 가정들에 맞지 않는 문제가 있기 때문에, 종속변인을 통상적인 OLS 회귀모형으로 분석할 경우 비효율적이고 비일관적이며 편의된 추정치를 낳을 수 있다. 이 글에서는 가산 결과의 성질을 적절히 다룰 수 있는 기본적인 모형으로 포와송 회귀모형을 소개하고, 그 특징과 한계를 논의한다. 그리고 포와송 분포에 기반하면서도 과대산포의 문제를 적절히 처리할 수 있는 모형인 음이항 회귀모형을 소개한다. 상대적으로 작은 지역을 관찰단위로 하는 자살과 살인에 대한 연구를 예시로 들어 통상적 OLS 회귀모형 적용 시 발생하는 문제점을 구체적으로 제시한다. 그리고 이러한 경우에 포와송 회귀모형과 음이항 회귀모형이 어떻게 활용될수 있는지 설명한다. 추가적으로 청소년 비행에 대한 미시적 연구에서 음이항 회귀모형이 사용된 예를 소개한다. 마지막으로 포와송 회귀모형과 음이항 회귀모형이 가정하고 있는 사건 발생의 독립성에 대한 가정이 실제 데이터에서 충족되지 않을 수 있다는 한계가 있다는 점을 지적한다. 그리고 청소년의 다양한 비행을 하나의 변인으로 지수화 할 때 발생하는 측정 상의 문제는 여전히 포와송 기반 모형으로도 적절히 처리될 수 없는 문제라는 점도 함께 지적한다. Crime and delinquency, which are typical dependent variables in criminological research" show count data distributions. In such cases, important assumptions of OIS regression model are often violated and 015 estimates turn. out to be inefficient, inconsistent, and biased. This paper introduces Poisson regression model which can appropriately deal with the count outcomes. Discussion key features and limitation of Poisson model, it also introduces negative binomial regression model which is Poisson based but can effectively resolved the problem of overdispersion. With an example of empirical study on suicide and homicide whose unit of analysis is small area, this paper explain the problems typically arise when 015 model is used for analyzing count data and show differences in estimates from Poisson model and negative binomial model. Another example of juvenile delinquency research is reviewed to see how negative binomial model deals with individual level count data. This paper also discusses the limitations of Poisson and negative binomial model and constructing index measures of juvenile delinquency.

      • KCI등재

        머신러닝(GRNN)을 이용한 교통사고모형의 예측정확도 개선에 관한 연구

        이상혁,우용한 한국도로학회 2018 한국도로학회논문집 Vol.20 No.6

        PURPOSES : The purpose of this study is to compare applicability, explanation power, and flexibility of traffic accident models between estimating model using the statistical method and the machine learning method. METHODS: In order to compare and analyze traffic accident models between model estimated using the statistical method and machine learning method, data acquisition was conducted, and traffic accident models were estimated using statistical methods such as negative binomial regression model, and machine learning methods such as a generalized regression neural network (GRNN). Then, the fitness of model as R2, root mean square error (RMSE), mean absolute percentage error (MAPE), accuracy, etc., were determined to compare the traffic accident models. RESULTS: The results showed that the annual average daily traffic (AADT), speed limits, number of lanes, land usage, exclusive right turn lanes, and front signals were significant for both traffic accident models. The GRNN model of total traffic accidents had been better statistical significant with R2: 0.829, RMSE: 2.495, MAPE: 32.158, and Accuracy: 66.761 compared with the negative binomial regression model with R2: 0.363, RMSE: 9.033, MAPE: 68.987, and Accuracy: 8.807. The GRNN model of injury traffic accidents also showed similar results of model’s statistical significance. CONCLUSIONS: Traffic accident models estimated with GRNN had better statistical significance compared with models estimated with statistical methods such as negative binomial regression model.

      • KCI등재

        An Alternative Bivariate Negative Binomial Model based on Sarmanov family

        Dong Hee Lee,Byoung Cheol Jung 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.1

        This paper proposes an alternative bivariate negative binomial model based on the Sarmanov family, which is a more general tool than the existing bivariate negative binomial models, such as Marshall, Olkin (1990), in the sense it allows the heterogeneous dispersions and negative correlation between two dependent variables. We also expand the proposed bivariate negative binomial distribution to a regression model. The maximum likelihood estimators for parameters in the proposed model can be easily obtained by the conventional iterative methods like Fisher s scoring algorithm, which is another advantage of our proposal. We apply it to the data of the 1987-1988 National Medical Expenditure Survey (NMES) given by Deb, Trivedi (1997). The empirical result suggests that the proposed model has a performance better than the other bivariate negative binomial model of Marshall, Olkin (1990) in terms of the likelihood and the Akaike information criterion. Furthermore, our proposal can be easily extended to the modeling of bivariate zero inflated count data.

      • KCI등재

        재학 중 경험한 일자리 수와 구직기간 결정요인 분석

        조장식 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.1

        In this paper, we study determinants of the total number of job experience and duration to first job in university using by using graduates occupational mobility survey (GOMS 2009). We set the four models such as Poisson regression model, zero-inflated Poisson model, negative binomial model and zero-inflated negative binomial model. Zero-inflated negative binomial regression model was selected as the optimal model, the main result of the impact on the number of job experience of college are as follows. First, the number of jobs, male experienced in college was small in comparison to female. Second, the number of jobs experience for university is more than the one of college. Third, there is job number one experience in college tend to have increasingly lower GPA (grade point average) up. Also we use Cox's proportional hazard model to analysis duration to first job. The main result of the impact on the duration to first job are as follows. First, male are more likely than female to escape into employment. Second, the greater the number of job experience in college, the higher GPA, as the increase in the number of licenses was higher chance of escape as first job after graduation. 본 연구에서는 대학 재학 중 경험한 일자리 수와 첫 직장의 구직기간과의 관련성을 분석하였다. 이를 위해 먼저 의사결정나무분석을 활용하여 경험한 일자리 수와 관련성 있는 독립변수를 탐색하였다. 계수자료(count data)에 대한 모형으로 포아송 회귀모형(Poisson regression model), 영과잉 포아송 회귀모형, 음이항 회귀모형, 영 과잉 음이항 회귀모형 등 4개의 모형을 설정하여 최적의 모형을 선택하였다. 또한 첫 직장 구직기간에 대한 분석을 위해서 Cox의 비례 해자드 모형(Cox's proportional hazard model)을 이용하였다. 분석결과 재학 중 경험한 일자리 수에 대한 최적모형으로 영과잉 음이항 회귀모형이 선택이 되었으며, 주요 결과는 다음과 같다. 첫째, 여자에 비해서 남자가 재학 중 경험한 일자리수가 작았으며, 전문대에 비해서 4년제 대학에서 재학 중 경험한 일자리 수가 많은 것을 알 수 있다. 둘째, 연령은 25∼30세 사이에서 경험한 일자리 수가 가장 많으며, 평균평점이 높을수록 작음을 알 수 있다. 셋째, 자격증수가 많을수록 경험한 일자리 수가 증가하며, 사립에 비해서 국립이 더 많음을 알 수 있다. 또한 졸업 후 첫 직장의 구직기간에 대한 주요 결과는 남자가 여자에 비해서, 재학 중 경험한 일자리 수가 많을수록, 평균평점이 높을수록, 자격증 수가 증가할수록 졸업 후 첫 직장으로 탈출할 확률이 높은 것으로 나타났다.

      • KCI등재

        음이항 혼합회귀모형을 이용한 교통사고 자료분석 연구

        이재준 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.3

        It is important to analyze motor vehicle crashes in traffic safety studies. In particular, transportation safety analysts study the causes of traffic accidents and reduce the number of traffic accidents and severity of collisions via statistical analyses in a crash data. Recently, Park and Lord(2009) provided a Bayesian approach that could be used for capturing heterogeneity in a Toronto motor vehicle crash count data through the use of finite mixture regression models. In this study, we propose L2E estimation method for finite mixture regression models based on minimum integrated L2 distance between parametric conditional and true conditional mass functions. We also analyze Toronto Motor Vehicle Crashes of Park and Lord(2009) with the maximum likelihood and L2E estimations. We show that our L2E estimation for two-component mixture of negative binomial regression models provides a better overall fit in terms of capturing the heterogeneity in the count responses and providing the interpretability of component profiles via their respective covariates. 교통시설에 대한 안전성 연구에 있어서 차량사고 분석은 매우 중요하다. 특히 교통사고에 대한 통계적 분석을 통해 교통안전전문가들은 그 원인을 파악하고 궁극적으로 사고 발생건수와 그 정도를 줄일 수 있을 것이다. 최근 Park과 Lord(2009)는 교통사고 자료에 존재할 수 있는 이질성(heterogeneity)을 파악하기 위해 음이항 혼합회귀모형(negative binomial mixture regression model)을 이용하였다. 본 연구에서는 혼합회귀모형을 위해 모수적 조건부 질량함수(parametric conditional mass function)와 참 조건부 질량함수(true conditional mass function) 간의 L2 거리를 이용한 L2E 추정방법을 제안하였으며, Park과 Lord의 베이지안 방법 외에도 기존의 최대우도추정법과 L2E 방법을 바탕으로 2-성분 음이항 혼합회귀모형을 이용하여 캐나다 토론토의 교통사고 자료를 재분석하였다. 분석 결과, 계산의 용이성뿐만 아니라 공변량을 통한 해석의 적절성 측면에서 L2E 방법 역시 교통사고 발생건수에 대한 추정방법으로 우수한 것으로 나타났다.

      • KCI등재

        ZAM 모형을 이용한 청주시 간선가로 구간의 사고모형 개발

        박병호,김준용 한국도로학회 2010 한국도로학회논문집 Vol.12 No.2

        This study deals with the traffic accident of the Cheongju arterial link sections. The purpose of the study is to develop the traffic accident model. In pursuing the above, this study gives particular attentions to developing the ZAM(zero-altered model) model using the accident data of arterial roads devided by 322 small link sections. The main results analyzed by ZIP(zero inflated poission model) and ZINB(zero inflated negative binomial model) which are the methods of ZAM, are as follows. First, the evaluation of various developed models by the Vuong statistic and t statistic for overdispersion parameter shows that ZINB is analyzed to be optimal among Poission, NB, ZIP(zero-inflated Poisson) and ZINB regression models. Second, ZINB is evaluated to be statistically significant in view of t, p and (0.63) values compared to other models. Finally, the accident factors of ZINB models are developed to be the traffic volume(ADT), number of entry/exit and length of median. The traffic volume(ADT) and the number of entry/exit are evaluated to be the ‘+’ factors and the length of median to be ‘-’ factor of the accident. 본 연구는 청주시의 가로구간 교통사고를 다루고 있다. 연구의 목적은 가로구간의 사고모형을 개발하는 데 있다. 이를 위해서 이 연구에서는 전체 322개 세부구간으로 분리된 간선도로의 사고 자료를 이용하여 ZAM 모형을 개발하는데 중점을 두고 있다. ZAM 모형의 일종인 ZIP(zero inflated poission model)과 ZINB(zero inflated negative binomial model)를 중심으로 분석한 연구의 주요결과는 다음과 같다. 첫째, 모형의 적합성을 결정하는 Vuong 통계 값과 과분산계수 의 t 통계 값을 바탕으로 개발된 다양한 모형을 평가한 결과, 포아송, 음이항, ZIP 및 ZINB 회귀모형 중 ZINB 모형이 최적인 것으로 나타난다. 둘째, ZINB 모형은 t, p 및 값(0.63)의 관점에서 보면, 다른 모형에 비해서 통계적으로 매우 의미 있는 모형으로 평가된다. 마지막으로, 개발된 ZINB 모형의 사고요인은 교통량, 진출입구 수 그리고 중앙분리대 길이로 분석된다. 교통량과 진출입구수는 사고발생에 ‘+’ 요인, 그리고 중앙분리대 길이는 ‘-’ 요인으로 평가된다.

      • KCI등재

        차량유형별 로터리 사고모형

        한수산,박병호 대한교통학회 2011 대한교통학회지 Vol.29 No.6

        This study deals with the traffic accidents data from the Korean rotaries (circular intersections) to verify their characteristics affected by different vehicle types. This paper categorized the data into three groups based on vehicle types, and developed a set of accident models. The paper proposed two ZIP models and one negative binomial model through a statistical analysis for three vehicle types: automobile, truck and van, and others. The differences among those models were then statistically compared. 이 연구는 차량유형별 로터리 교통사고를 다루고 있다. 이 논문은 차량유형별 교통사고 특성을 비교 분석하고, 사고모형을 개발하는데 그 목적이 있다. 이를 위해 이 연구에서는 차량유형을 세 그룹으로 나누어 그 차이점을 분석하고, 국내 로터리 자료를 이용하여 포아송 및 음이항 회귀모형과 ZAM모형을 개발하는데 중점을 두고 있다. 주요 연구결과는 다음과 같다. 첫째, 승용차량과 화물 및 승합차, 원동기의 사고건수를 종속변수로 하는 통계적으로 의미 있는 2개의 ZIP 모형과 1개의 음이항 모형이 개발되었다. 둘째, 모형별 채택된 독립변수를 활용하여 세 모형의 차이가 비교․분석되었다. 마지막으로 로터리 사고를 예방하기 위해 조명시설, 과속방지턱과 같은 교통안전시설물 설치가 필요한 것으로 평가되었다.

      • KCI등재

        토빗모형을 이용한 교차로 보행자 사고모형 개발

        이승주 ( Seung Ju Lee ),임진강 ( Jin Kang Lim ),박병호 ( Byung Ho Park ) 한국안전학회(구 한국산업안전학회) 2014 한국안전학회지 Vol.29 No.5

        This study deals with the pedestrian accidents of intersections in case of Cheongju. The objective is to develop the pedestrian accident models using Tobit regression model. In pursuing the above, the pedestrian accident data from 2007 to 2011 were collected from TAAS data set of Road Traffic Authority. To analyze the accident, Poisson, negative binomial and Tobit regression models were utilized in this study. The dependent variable were the number of accident by intersection. Independent variables are traffic volume, intersection geometric structure and the transportation facility. The main results were as follows. First, Tobit model was judged to be more appropriate model than other models. Also, these models were analyzed to be statistically significant. Second, such the main variables related to accidents as traffic volume, pedestrian volume, number of traffic island, crossing length and thepedestrian countdown signal systems were adopted in the above model.

