RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        A Case Study on House Price Index Based on Generalized Repeat Sales Model

        연규필 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.1

        Conventional repeat sales model for constructing house price indices (HPIs) based on arm's-length transaction data has a limitation in that it cannot produce stable indices when the sales pairs are not sufficient, which is common in a small area. To tackle the problem a generalized repeat sales model can be utilized. The model was proposed to estimate originally repeat sales HPIs of several heterogeneous sub-markets and the total market simultaneously. In this paper, we conducted a case analysis on the house price indices generated from the generalized repeat sales model for row houses of 5 metropolitan cities in Korea. It was shown that the repeat sales index for each city, which has not been produced officially up to now because of the lack of sufficient sales pairs, can be obtained by the generalized repeat sales model with the index of the whole market of the 5 cities. Furthermore, the result provides some valuable information about how different the house price trends among the 5 cities are.

      • KCI등재

        판정보류 옵션을 가진 분류자

        연규필,여동화,최호식 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.6

        이범주 분류문제에서 판정보류 옵션을 가진 분류규칙은 기존의 분류규칙에 판정보류 옵션을 추가적으로 고려한 분류규칙을 의미한다. 이러한 판정보류 옵션을 가진 분류규칙은 엄밀히 분류를 하기 힘든 자료에 대해 기존의 분류방법보다 더 우수한 성능을 보이는 것으로 알려져 있다. 기계학습적인 판정보류 옵션을 가진 방법은 최근에서야 support vector machines(SVM) 방법을 기저로 하여 개발되었다. 그러나, 근본적으로 SVM방법이 사후확률을 제공하지 못하기 때문에 이에 근거한 판정보류 옵션을 가진 SVM방법도 역시 동일한 문제를 안고 있다. 본 연구에서는 사후확률을 도출하는 통합손실함수를 소개하고, 이를 판정보류에 활용하여 기존 방법론들의 단점을 개선하고자 한다. 또한, 실제 자료를 통하여 제안한 방법론의 유용성을 실증한다. In classification problem, it would be desirable to defer a decision in particular for observations which are hard to classify. For example, an observation whose conditional probability is around 1/2, it would be better to take more advanced tests rather than to make a decision right away. This motivates a classifier with a reject option that reports a warning for those observations that are hard to classify. Recently, learning methods with a reject option have been developed based on support vector machines(SVM). But, SVM with a reject option doesn't provide posterior probability. To tackle such a limitation, in this paper, we propose a machine learning approach using the unified loss function. We develop an optimization algorithm for the proposed method, which is fast enough to analyze large scale data. Results of numerical studies show that the proposed method efficiently reduces prediction errors compared with the traditional SVM with a reject option.

      • KCI등재

        월세가격동향조사 통계의 가격지수 변동률 분석

        연규필,Yeon, Kyu Pil 한국데이터정보과학회 2014 한국데이터정보과학회지 Vol.25 No.6

        This research is for analyzing the change rate of housing rent price index produced by KAB (Korea Appraisal Board) in the monthly periodical, Survey on Housing Monthly Rent. The index is a very important and useful indicator to understand and diagnose the house rental market. However, the index is criticized in that it tends to decline when the price level of Jeonse (i.e., a typical type of dwellings in Korea, generally leased on a deposit basis for 1 or 2 years) is highly going up, which is inconsistent with the actual economic sentiment of tenants. We verify the reason why such phenomenon occurs and suggest a simple but novel method to analyze properly the change rate of the index. The main findings are as follows. The key factor to trigger the problem is the use of the conversion rate for Jeonse-to-monthly rent for constructing the rent price indexes. We separate the effect of the conversion rate out of the change rate of the index and quantify the adjusted real change rate showing an increase of the rent price level which is masked by the conversion rate before. 월세가격 동향을 살펴볼 수 있는 국가승인통계인 월세가격동향조사는 8개시도 (수도권 및 지방광역시)의 3,000개 월세표본에 대하여 매월 월세가격을 파악하여 지역별, 주택유형별, 규모별 월세가격지수 및 증감률, 그리고 월세이율을 공표하고 있다. 이 통계에서 제공되는 월세가격지수는 월세시장 동향을 파악하는데 매우 중요한 지표로서, 적절한 주택정책의 수립과 평가에 활용되고 있다. 월세가격지수는 보증금과 월세의 이원적인 가격자료를 전월세전환율을 이용하여 완전월세액이라는 하나의 가격자료로 환산하여 그 변화율을 측정함으로써 산정되는데, 적용되는 전월세전환율 종류에 따라 상이한 가격지수가 도출될 수 있다. 현재 적용되고 있는 전월세전환율 하에서는 임차인의 입장에서 월세부담이 상승했다 하다라도 전세금 수준이 더 많이 상승한 경우 전월세전환율이 낮아져서 결과적으로 월세가격지수가 하락하는 현상이 발생될 수 있다. 따라서 현행 월세가격지수의 변동률에 대한 해석에 유의할 필요가 있다. 본 논문에서는 월세가격지수의 변동률을 전월세전환율 변화에 기인한 부분과 그렇지 않은 부분을 구분하여 분석할 수 있는 틀을 제공하고자 한다. 이러한 방법을 통하여 현재와 같이 전세금이 급격하게 상승하는 시장에서 월세가격지수가 떨어지는 경우, 적용된 전월세전환율 효과에 기인하지 않는 실제 월세수준의 변동 흐름을 보다 정확하게 파악할 수 있다.

      • KCI등재

        An Ensemble Approach to Domain Adaptation in Sentiment Analysis

        연규필 한국자료분석학회 2019 Journal of the Korean Data Analysis Society Vol.21 No.4

        Domain adaptation aims to predict a response variable accurately in a target domain where labeled instances are non-exist or scarce, if any, but unlabeled instances are plentiful, by utilizing as much as possible abundant labeled information in one or several related source domains. Therefore it can be considered as a transfer learning which is one of hot topics in machine learning community. Although a target domain is related to source domains in any way, the underlying distributions generating instances are different. This inevitably carries on the so called concept drift phenomenon which means the input-output dependency changes across the domains. Under the concept drift, many ensemble learning algorithms have been suggested and showed quite good results. In this paper, we apply an ensemble learning scheme for semi-supervised domain adaptation as in the concept drift learning where a penalized regression based ensemble combiner is utilized. The proposed method is applied to a sentiment classification and shows a good result.

      • KCI등재

        표준주택공시가격 적정성 제고를 위한 기계학습적 접근

        연규필 ( Kyu Pil Yeon ) 한국부동산분석학회 2015 不動産學硏究 Vol.21 No.2

        The paper deals with how to enhance the appropriateness of the posted prices of the standard houses with the perspective of machine learning. We formulate a classification problem with the binary response that is defined by the magnitude of the rate of posted price to actual price of the standard houses in each metropolitan city and province. Several variables regarding characteristics of the houses are used as predictor variables in the statistical modeling. The considered models are logistic regression, decision tree, bagging and gradient boosting. The performance comparison using ROC curve or lift charts suggests the gradient boosting as the best model in this situation. The modeling result can be utilized for adjusting the posted prices of standard houses in advance which leads to a better balanced distribution of the posted prices in terms of COD (coefficient of dispersion) and high rate of reflecting the actual prices to the posted prices. We analyses a real data set regarding posted prices and actual transaction prices and the result show that the machine learning approach can be effectively applied to enhance the appropriateness of the posted prices of standard houses.

      • KCI등재

        부분공간 정렬을 통한 비지도 도메인 적응 분류 모형 비교 분석

        연규필(Kyupil Yeon) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.1

        본 논문에서는 비지도 도메인 적응(unsupervised domain adaptation, UDA) 방법 중에서 차원축소 및 부분공간 정렬(subspace alignment)에 기반한 방법론들을 비교 연구하였다. 비지도 도메인 적응은 타겟 도메인(target domain)에 레이블 정보가 주어지지 않은 경우에 서로 다르지만 연관되어 있는 레이블 정보가 충분한 소스 도메인(source domain)의 데이터를 활용하여 타겟 도메인에서도 성능이 우수한 분류 모형을 구축하고자 하는 것이 목표이다. 두 도메인의 입력공간이 동질적인(homogeneous) 상황을 가정하더라도 데이터 생성의 기저 분포가 다른 것이 일반적이므로 소스 도메인에서 구축한 분류 모형이 타겟 도메인에서는 분류 성능이 매우 떨어질 수 있다. 따라서 도메인에 상관없이 분류 성능이 우수한 특징(feature) 변수를 유도하여 모형 구축에 활용하여야 한다. 대표적인 방법으로 주성분 분석을 이용한 차원축소와 부분공간의 기저 벡터 정렬(alignment)에 기반한 부분공간 정렬 도메인 적응(subspace alignment DA) 방법과, 부분공간의 기저벡터 정렬 및 분포 정렬에 기반한 부분공간 분포 정렬 도메인 적응(subspace distribution alignment DA) 방법을 이미지 인식 데이터 분석을 통해 비교 분석하였다. 또한, 부분공간 유도시 지도 주성분 분석(supervised PCA)을 활용하면서 부분공간 정렬을 통한 도메인 적응을 구현하는 방법을 제안하고 앞의 두 방법과 비교하였다. 이미지 분류에 있어서 부분공간 정렬 도메인 적응 방법보다 부분공간 분포 정렬 도메인 적응 방법이 대체로 더 우월한 결과를 보였고, 제안된 지도 주성분 분석 및 부분공간 정렬 기반 도메인 적응 방법은 일부 상황에서 가장 우수한 성능을 보임을 확인하였다. Unsupervised domain adaptation (DA) aims to build a classification model that performs well in the target domain by utilizing some data or information from a source domain that is different but associated with the target domain and has sufficient labeled instances. In this paper, a comparative study on unsupervised domain adaptation methods using subspace alignment was conducted. Two main algorithms are considered. One is the subspace alignment DA and the other is the subspace distribution alignment DA. They are based on dimension reduction using PCA (principal component analysis) and basis vector alignment of the subspace or distribution alignment of the subspace. In addition, a method for realizing domain adaptation through subspace alignment while utilizing supervised PCA for subspace derivation was proposed and compared with the previous two methods. In an image classification data analysis, it was confirmed that the subspace distribution alignment domain adaptation method showed superior results than the subspace alignment domain adaptation, and the proposed domain adaptation method utilizing a supervised PCA and subspace alignment showed the best performance in some situations.

      • KCI등재

        로지스틱회귀모형에서 설명변수의 상대적 중요도 지표에 관한 연구

        정윤호,연규필 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.1

        One of the important objectives of regression analysis is to verify the relative importances of predictors in the constructed model. Variable importance is generally measured by the proportion at which a variable contributes on the coefficient of determination. We study on the relative importance measures such as Pratt's product measure, Johnson's relative weight, and Budescu's general dominance index in the perspective of how to derive the definition in the case of logistic regression. Furthermore, we suggest a modified Pratt's index using logistic ridge regression which is commonly utilized when the so called multi-collinearity among variables are considerable. A data analysis regarding the variable importance in logistic regression is conducted and the result shows that the proposed index is practicable in the case of multi-collinearity in that it can derive appropriate importance values compared to the Pratt's measure and produce similar importance ranks to the relative weights. 회귀분석의 주요 목적 중 하나는 설명변수들의 상대적 중요도를 파악하는 것이다. 반응변수가 연속형인 회귀모형에서 설명변수의 중요도는 흔히 결정계수 값을 각 설명변수가 기여하는 부분으로 분해함으로써 중요도를 측정한다. 대표적으로 Pratt의 곱측도, Budescu의 일반우세지수, Johnson의 상대가중치 등이 있다. 본 논문에서는 반응변수가 이항형인 로지스틱회귀모형의 경우에 이러한 지표들이 유사결정계수(pseudo R-squared)를 통해 적절히 정의될 수 있음을 살펴보았다. 특히, 일반우세지수나 상대가중치와는 달리 Pratt의 곱측도는 다중공선성이 클 때 설명변수의 중요도 지표로서 음수값을 도출하는 등의 한계가 있기 때문에 그대로 사용될 수 없음을 고려하여, 로지스틱능형회귀모형(logistic ridge regression)에서의 Pratt 곱측도를 산정하는 방안을 제시하였다. 또한, 사례분석을 통해 로지스틱회귀모형에서의 설명변수 중요도 지표들을 서로 비교하고 제안된 지표의 유용성을 실증하였다. 분석 결과 제안된 지표는 다중공선성이 있는 경우에 기존의 Pratt 곱측도의 단점을 보완하면서 상대가중치와 비슷한 변수 중요도 순위를 나타냄을 확인하였다.

      • KCI등재

        밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구

        최혜선,연규필 한국콘텐츠학회 2022 한국콘텐츠학회논문지 Vol.22 No.5

        In this study, text analysis was performed on the mealkit product review data to identify factors affecting the evaluation of the mealkit product. The data used for the analysis were collected by scraping 334,498 reviews of mealkit products in Naver shopping site. After preprocessing the text data, wordclouds and sentiment analyses based on word frequency and normalized TF-IDF were performed. Logistic regression model was applied to predict the polarity of reviews on mealkit products. From the logistic regression models derived for each product category, the main factors that caused positive and negative emotions were identified. As a result, it was verified that text analysis can be a useful tool that provides a basis for maximizing positive factors for a specific category, menu, and material and removing negative risk factors when developing a mealkit product. 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

      • KCI등재

        A Penalized Regression Based Repeat Sales Price Index Estimation

        최호식,연규필 한국자료분석학회 2014 Journal of the Korean Data Analysis Society Vol.16 No.6

        Transaction-based HPI (house price index) in a low transaction-volume area inferred by the repeat sales price model frequently suffers from high volatility of the estimated indexes because of the thin file of the house prices traded at least over two times during the whole periods of interest. We tackle the problem by using a penalized regression for constructing repeat sales indexes which are induced from smoothed regression coefficients for some properly selected regularization parameter. As a regularization term we consider a ridge type penalty materialized with the difference of two adjacent coefficients in order to make the estimated regression coefficients smoothed enough to induce the corresponding stable house price indexes. The proposed method is applied to the real data set and the results show its superiority to the ordinary repeat sales model especially for the house price indexes in a thin file area.

      • KCI등재

        아파트 단지의 질적 속성 정보를 이용한 SUR 기반의 헤도닉 가격 모형

        김성용,연규필 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.1

        In this study, we conducted a case study for evaluating the apartment transaction price determinants using SUR (seemingly unrelated regression) model for the apartments in Seoul. In other words, we analysed the association between the median transaction price per unit of the apartment complex with the qualitative characteristics of the apartment - roadside condition, traffic condition, convenience facility, education condition, environment condition, public transportation condition and building status condition. We applied the SUR model to construct a hedonic price model for the transaction prices occurred in 2013~2015 in order to take consideration of latent correlations among prices in each year. Analysis results tell us that the roadside conditions and traffic conditions, environmental conditions, public transportation conditions and the building conditions were found to affect positively to the transaction value under the significance level of 0.05. Furthermore, education condition in Gangnam-3gu has more positive effect on transaction prices than the other regions under the significance level of 0.1. 본 연구에서는 서울시 아파트를 대상으로 SUR(seemingly unrelated regression) 모형을 이용하여 아파트 거래가격 결정요인에 대한 사례분석을 시행하였다. 즉, 서울시 아파트 단지의 연도별 단위당 중위거래가격이 단지 특성(가로변조건, 교통조건, 편의시설, 교육조건, 환경조건, 대중교통, 건물상태, 강남3구여부)과 어떠한 연관성을 갖는지를 분석하였다. 분석방법으로는 2013~2015 각 연도별 아파트 거래가격에 대한 헤도닉 모형(hedonic price model)을 구축함에 있어서 거래가격의 연도별 상관성을 고려하기 위하여 SUR 모형을 적용하였다. 분석 결과로는, 가로변조건과 교통조건, 환경조건, 대중교통조건, 건물상태 및 강남3구여부 등이 거래가격에 양(+)의 영향을 미치는 것으로 나타났으며(유의수준 0.05), 이 가운데 가로변조건과 강남3구여부는 연도가 지남에 따라 영향력이 증가하고 있으며, 반대로 건물상태는 매매가격에 대한 영향력이 감소하는 것으로 나타났다. 교통, 환경, 대중교통의 경우 연도에 상관없이 일정한 영향력을 주고 있는 것으로 나타났다. 한편, 교육조건은 강남3구여부 변수와의 교호작용이 유의하게 나타나면서, 강남3구에서는 교육조건이 우수한 경우에 그렇지 않은 경우보다 아파트 거래가격이 증가하고, 이외 지역에서는 교육조건이 아파트 거래가격에 미치는 영향이 미미한 것으로 나타났다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
