RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        비교차 제약식을 이용한 다중 선형 분위수 회귀모형에 관한 비교연구

        방성완,신승준,Bang, Sungwan,Shin, Seung Jun 한국통계학회 2016 응용통계연구 Vol.29 No.5

        Multiple quantile regression that simultaneously estimate several conditional quantiles of response given covariates can provide a comprehensive information about the relationship between the response and covariates. Some quantile estimates can cross if conditional quantiles are separately estimated; however, this violates the definition of the quantile. To tackle this issue, multiple quantile regression with non-crossing constraints have been developed. In this paper, we carry out a comparison study on several popular methods for non-crossing multiple linear quantile regression to provide practical guidance on its application. 분위수 회귀는 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 그러나 여러 개의 분위수 함수를 개별적으로 추정하게 되면 이들이 서로 교차할 가능성이 있으며, 이러한 분위수 함수의 교차(quantile crossing) 현상 분위수의 이론적 기본 특성에 위배된다. 본 논문에서는 다중 비교차 분위수 함수의 추정의 대표적인 방법들의 특성을 적합식과 계산 알고리즘의 측면에서 살펴보고, 모의실험과 실제 자료 분석을 통해 그 성능을 비교하였다.

      • KCI등재

        커널 제약식을 이용한 다중 비교차 분위수 함수의 순차적 추정법

        방성완,전명식,조형준,Bang, Sungwan,Jhun, Myoungshic,Cho, HyungJun 한국통계학회 2013 응용통계연구 Vol.26 No.6

        분위수 회귀는 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 그러나 여러 개의 분위수 함수를 개별적으로 추정하게 되면 이들이 서로 교차할 가능성이 있으며, 이러한 분위수 함수의 교차(quantile crossing) 현상 분위수의 이론적 기본 특성에 위배된다. 본 논문에서는 다중 비교차 분위수 함수의 추정을 위해 커널 계수에 제약식을 부여하는 순차적 추정법을 제안하였으며, 모의실험을 통해 제안한 방법론의 효율적인 성능과 유용성을 확인하였다. Quantile regression can estimate multiple conditional quantile functions of the response, and as a result, it provide comprehensive information of the relationship between the response and the predictors. However, when estimating several conditional quantile functions separately, two or more estimated quantile functions may cross or overlap and consequently violate the basic properties of quantiles. In this paper, we propose a new stepwise method to estimate multiple non-crossing quantile functions using constraints on the kernel coefficients. A simulation study are presented to demonstrate satisfactory performance of the proposed method.

      • KCI우수등재

        대용량 자료의 분류분석을 위한 분할정복 서포터 벡터 머신

        방성완(Sungwan Bang),한석원(Seokwon Han),김재오(Jaeoh Kim) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.3

        일반적으로 SVM (support vector machine)은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용을 필요로 한다. 따라서 컴퓨터 메모리 능력의 제한으로 SVM을 활용한 대용량 자료의 분류분석은 불가능하다. 이러한 문제점을 해결하기 위하여 본 논문에서는 분할정복 (divide and conquer) 알고리즘을 활용한 SVM(DC-SVM) 분류기법을 제안한다. DC-SVM은 먼저 전체 훈련자료를 몇 개의 부분집합으로 무작위로 분할 (divide)한 후, 각각의 부분집합에 대하여 SVM 분류함수를 추정하고, 이들의 결과를 통합 (conquer)하여 최종적인 분류함수를 추정하는 기법이다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DC-SVM의 효율적인 성능과 활용 가능성을 확인하였다. The support vector machine (SVM) has been successfully applied to various classification areas with great flexibility and a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems such as the limitation of computer primary memory. To overcome such a problem, we propose a divide and conquer based SVM (DC-SVM) method. The proposed DC-SVM divides the entire training data into a few subsets, and applies the SVM onto each subset to estimate its classifier. And then DC-SVM obtains the final classifier by aggregating all classifiers from subsets. Simulation studies are presented to demonstrate satisfactory performance of the proposed method.

      • KCI등재

        불균형 자료의 분류분석을 위한 가우스 혼합 군집모형을 이용한 샘플링 기법

        방성완(Sungwan Bang),김재오(Jaeoh Kim) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        일반적으로 전통적인 분류분석 방법은 소수집단의 개체수가 다수집단의 개체수와 현격한 차이를 보이는 이항 범주형 불균형 자료(imbalanced data)의 분류분석에서 문제를 야기한다. 그것은 다수집단에 편향된 분류함수를 추정하므로서 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소하는 현상이다. 이러한 문제를 효과적으로 해결하기 위하여 본 논문에서는 가우스 혼합 군집모형을 활용하여 불균형 자료의 분류분석을 위한 샘플링 기법을 제안한다. 이 방법은 소수집단에 대해 가우스 혼합분포를 추정하고 이를 기반으로 과대 추출하는 것이 핵심이다. 제안하는 방법을 SMOTE(synthetic minority over-sampling technique), ADASYN (adaptive synthetic sampling)과 같은 기존의 과대 추출 방법들과 다양한 상황 및 실제 예제에서 비교하여 그 우수성을 확인하였다. 특히, 불균형 자료 분석에서 중요하게 다루어지는 소수집단의 분류 정확도 측면에서 제안한 방법은 충분히 좋은 성능을 보였다. 본 연구에서는 이진 분류기로서 서포트 벡터 머신을 분류방법으로 사용하였으며, 전체 정확도, 민감도, 특이도 및 기하평균으로 성능을 평가하였다. When analyzing imbalanced data with different class sizes, the classification accuracy in minority class (sensitivity) may drop significantly because traditional classifiers are biased toward the majority class so that they classifies almost all observations to majority class. The purpose of this study is to propose a sampling method for classifying imbalanced data using the Gaussian mixture clustering model. We compared our proposed method with the existing over-sampling methods such as SMOTE (synthetic minority over-sampling technique) and ADASYN (adaptive synthetic sampling), and confirmed the excellence of the proposed method in various situations. In particular, the proposed method outperformed all other methods in terms of the classification accuracy of the minority class, which are generally important in the analysis of imbalanced data. In this study, a support vector machine method is adopted as a classification method and each method is evaluated by overall accuracy, sensitivity, specificity, and geometric mean.

      • KCI등재

        통합 비교차 다중 분위수회귀나무 모형을 활용한 AI 면접체계 자료 분석

        김재오,방성완,Kim, Jaeoh,Bang, Sungwan 한국통계학회 2020 응용통계연구 Vol.33 No.6

        본 연구는 대한민국 육군이 선도적으로 도입하고자 노력하고 있는 AI 면접체계의 자료를 통합 비교차 다중 분위수 회귀나무 모형(unified non-crossing multiple quantile tree; UNQRT)을 활용하여 분석한 것이다. 분위수 회귀가 일반적인 선형회귀에 비하여 많은 장점을 가지지만, 선형성 가정은 여전히 많은 현실 문제해결에 있어 지나치게 강한 가정이다. 선형성을 완화한 모형의 하나인 기존 나무모형 기반의 분위수 회귀는 추정된 분위수 함수별로 교차하는 문제와 분위수별로 나무모형을 제시하여 해석력을 저하시키는 문제가 있다. 통합 비교차 다중 분위수회귀나무 모형은 비교차 제약식을 부여한 상태로 다중 분위수 함수를 동시에 추정함으로서 분위수 함수의 교차 문제를 해결하며, 극단 분위수에서 안정된 결과를 기대할 수 있고, 하나의 통합된 나무모형을 제시하여 우수한 해석력이 있다. 본 연구에서는 통합 비교차 다중 분위수회귀나무 모형을 활용하여 육군 AI 면접체계의 결과와 기존 인사자료간 관계를 충분히 탐색하여 의미있는 다양한 결과를 도출하였다. With an increasing interest in integrating artificial intelligence (AI) into interview processes, the Republic of Korea (ROK) army is trying to lead and analyze AI-powered interview platform. This study is to analyze the AI interview data using a unified non-crossing multiple quantile tree (UNQRT) model. Compared to the UNQRT, the existing models, such as quantile regression and quantile regression tree model (QRT), are inadequate for the analysis of AI interview data. Specially, the linearity assumption of the quantile regression is overly strong for the aforementioned application. While the QRT model seems to be applicable by relaxing the linearity assumption, it suffers from crossing problems among estimated quantile functions and leads to an uninterpretable model. The UNQRT circumvents the crossing problem of quantile functions by simultaneously estimating multiple quantile functions with a non-crossing constraint and is robust from extreme quantiles. Furthermore, the single tree construction from the UNQRT leads to an interpretable model compared to the QRT model. In this study, by using the UNQRT, we explored the relationship between the results of the Army AI interview system and the existing personnel data to derive meaningful results.

      • KCI등재

        국소 선형 복합 분위수 회귀에서의 평활계수 선택

        전명식,강종경,방성완,Jhun, Myoungshic,Kang, Jongkyeong,Bang, Sungwan 한국통계학회 2017 응용통계연구 Vol.30 No.5

        국소복합분위수 회귀모형을 활용한 비모수적 함수 추정방법이 높은 효율성과 더불어 활발히 연구되고 있다. 이러한 추정과정에 커널을 사용한 자료 평활방법이 대표적으로 사용되고 있으며, 그 성능은 커널보다는 평활계수의 선택 크게 의존한다. 한편, 회귀함수 추정방법의 성능을 평가하는 기준으로는 통상적으로 $L_2$-노름이 사용되어 평균제곱오차 또는 평균적분제곱오차를 최소화하는 평활계수의 선택에 대한 많은 연구가 진행되어 왔다. 본 논문에서는 국소선형 복합 분위수 회귀방법을 활용한 비모수 회귀모형 추정량의 성능을 결정하는 평활계수 선택의 최적성에 관해 연구하였다. 특히, 여러 장점을 가졌으나 수리적 어려움으로 연구가 미흡한 평균절대오차 및 평균적분절대오차를 최적의 기준으로 삼아 최적의 평활계수를 구하고 그 유일성에 관해 연구하였다. 나아가 기존의 평가기준인 평균제곱오차 및 평균적분제곱오차를 사용한 선택과의 관계를 파악하고 그 성능을 비교하였다. 이러한 과정에서 다양한 상황에서의 모의실험을 통해 제안한 방법의 특성을 규명하였다. Local composite quantile regression is a useful non-parametric regression method widely used for its high efficiency. Data smoothing methods using kernel are typically used in the estimation process with performances that rely largely on the smoothing parameter rather than the kernel. However, $L_2$-norm is generally used as criterion to estimate the performance of the regression function. In addition, many studies have been conducted on the selection of smoothing parameters that minimize mean square error (MSE) or mean integrated square error (MISE). In this paper, we explored the optimality of selecting smoothing parameters that determine the performance of non-parametric regression models using local linear composite quantile regression. As evaluation criteria for the choice of smoothing parameter, we used mean absolute error (MAE) and mean integrated absolute error (MIAE), which have not been researched extensively due to mathematical difficulties. We proved the uniqueness of the optimal smoothing parameter based on MAE and MIAE. Furthermore, we compared the optimal smoothing parameter based on the proposed criteria (MAE and MIAE) with existing criteria (MSE and MISE). In this process, the properties of the proposed method were investigated through simulation studies in various situations.

      • KCI등재

        그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신

        김은경,전명식,방성완,Kim, Eunkyung,Jhun, Myoungshic,Bang, Sungwan 한국통계학회 2016 응용통계연구 Vol.29 No.5

        H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. 이러한 문제점들을 보완하기 위해 본 논문에서는 적응적 조율모수를 사용하여 변수선택의 성능을 개선하고 집단별 오분류 비용을 차등적으로 부여하는 WAH-SVM을 제안하였다. 또한, 모의실험과 실제자료 분석을 통하여 제안한 모형과 기존 방법론들의 성능 비교하였으며, 제안한 모형의 유용성과 활용 가능성 확인하였다. The hierarchically penalized support vector machine (H-SVM) has been developed to perform simultaneous classification and input variable selection when input variables are naturally grouped or generated by factors. However, the H-SVM may suffer from estimation inefficiency because it applies the same amount of shrinkage to each variable without assessing its relative importance. In addition, when analyzing imbalanced data with uneven class sizes, the classification accuracy of the H-SVM may drop significantly in predicting minority class because its classifiers are undesirably biased toward the majority class. To remedy such problems, we propose the weighted adaptive H-SVM (WAH-SVM) method, which uses a adaptive tuning parameters to improve the performance of variable selection and the weights to differentiate the misclassification of data points between classes. Numerical results are presented to demonstrate the competitive performance of the proposed WAH-SVM over existing SVM methods.

      • KCI등재

        계층적 벌점함수를 이용한 주성분분석

        강종경,박재신,방성완,Kang, Jongkyeong,Park, Jaeshin,Bang, Sungwan 한국통계학회 2017 응용통계연구 Vol.30 No.1

        주성분 분석(principal component analysis; PCA)은 서로 상관되어 있는 다변량 자료의 차원을 축소하는 대표적인 기법으로 많은 다변량 분석에서 활용되고 있다. 하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다. 이에 본 연구에서는 기존 SPCA를 개선하여, 자료가 그룹화되어 있는 경우에 유의한 그룹을 선택함과 동시에 그룹 내 불필요한 변수를 제거할 수 있는 새로운 주성분 분석 방법을 제시하고자 한다. 그룹과 그룹 내 변수 구조를 모형 적합에 이용하기 위하여, sparse 주성분 분석에서의 elastic net 벌점함수 대신에 계층적 벌점함수 형태를 고려하였다. 또한 실제 자료의 분석을 통해 제안 방법의 성능 및 유용성을 입증하였다. Principal component analysis (PCA) describes the variation of multivariate data in terms of a set of uncorrelated variables. Since each principal component is a linear combination of all variables and the loadings are typically non-zero, it is difficult to interpret the derived principal components. Sparse principal component analysis (SPCA) is a specialized technique using the elastic net penalty function to produce sparse loadings in principal component analysis. When data are structured by groups of variables, it is desirable to select variables in a grouped manner. In this paper, we propose a new PCA method to improve variable selection performance when variables are grouped, which not only selects important groups but also removes unimportant variables within identified groups. To incorporate group information into model fitting, we consider a hierarchical lasso penalty instead of the elastic net penalty in SPCA. Real data analyses demonstrate the performance and usefulness of the proposed method.

      • KCI등재

        벌점화 분위수 회귀나무모형에 대한 연구

        김재오,조형준,방성완,Kim, Jaeoh,Cho, HyungJun,Bang, Sungwan 한국통계학회 2016 응용통계연구 Vol.29 No.7

        분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다. Quantile regression provides a variety of useful statistical information to examine how covariates influence the conditional quantile functions of a response variable. However, traditional quantile regression (which assume a linear model) is not appropriate when the relationship between the response and the covariates is a nonlinear. It is also necessary to conduct variable selection for high dimensional data or strongly correlated covariates. In this paper, we propose a penalized quantile regression tree model. The split rule of the proposed method is based on residual analysis, which has a negligible bias to select a split variable and reasonable computational cost. A simulation study and real data analysis are presented to demonstrate the satisfactory performance and usefulness of the proposed method.

      • KCI등재

        불균형 자료의 분류분석을 위한 가중 L<sub>1</sub>-norm SVM

        김은경,전명식,방성완,Kim, Eunkyung,Jhun, Myoungshic,Bang, Sungwan 한국통계학회 2015 응용통계연구 Vol.28 No.1

        SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다. The support vector machine has been successfully applied to various classification areas due to its flexibility and a high level of classification accuracy. However, when analyzing imbalanced data with uneven class sizes, the classification accuracy of SVM may drop significantly in predicting minority class because the SVM classifiers are undesirably biased toward the majority class. The weighted $L_2$-norm SVM was developed for the analysis of imbalanced data; however, it cannot identify irrelevant input variables due to the characteristics of the ridge penalty. Therefore, we propose the weighted $L_1$-norm SVM, which uses lasso penalty to select important input variables and weights to differentiate the misclassification of data points between classes. We demonstrate the satisfactory performance of the proposed method through simulation studies and a real data analysis.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼