RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      기계학습 모형의 설명가능성에 관한 연구 : 미국 주택담보대출 자료를 중심으로 = A Study on the Explainability of Machine Learning Models: Focusing on the U. S. Residential Mortgage Database

      한글로보기

      https://www.riss.kr/link?id=T15640719

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Machine learning is an area of artificial intelligence, which is known to have superior prediction power compared to standard econometrics approach. Standard econometrics approach are widely used in the social science area, including the real estate f...

      Machine learning is an area of artificial intelligence, which is known to have superior prediction power compared to standard econometrics approach. Standard econometrics approach are widely used in the social science area, including the real estate field. On the other hand, machine learning is a kind of black box model, which can not explain the cause of the results. Recent research on XAI (eXplainable Artificial Intelligence) in the field of machine learning has raised interest in the “Explainability” of the model. Explainability of machine learning provides an opportunity to open up the possibility of various studies in social science fields (real estate, finance, etc.), which have formerly used econometric technology or machine learning in prediction power. In this study, empirical studies were conducted by applying the explainability of machine learning to default risk of mortgage loans.
      Recently, domestic housing prices have been on the rise due to a decrease in housing supply and low interest rates in the Seoul metropolitan area, but the economic slowdown and the risk of a fall in housing prices could increase the default risk in mortgage loans and expand the scale. In addition, it has become important for financial institutions to more accurately measure Bank for International Settlements (BIS) ratios and to be recognized by regulators through self-help efforts to accurately measure risk weights for risky assets. However, prior studies related to mortgage loans have focused on explaining the factors associated with them based on standard econometrics approach models for the risk of delinquency, default or prepayment. Therefore, this study seeks to enhance the effectiveness of the model internally by measuring more delicate default risks based on machine learning, and it is also expected that this model can be used as an efficient regulatory compliance mechanism for default risks.
      In this study, it is analyzed mortgage data from Freddie Mac in the U.S. to derive a model of mortgage defaults based on machine learning (artificial neural network and random forest), and to explain the factors of default risk in the model as Partial Dependence Plot (PDP), marginal effects, and Shapley Additive Explanations (SHAP). In addition, by comparing the predictive power of standard econometrics approach and machine learning models, the machine learning model proved that not only the explanatory power but also the predictive power is better than the standard econometrics approach.
      First, results of comparing logistic regression as one of the standard econometrics techniques, and artificial neural network and random forest models as machine learning technique models, generally showed similar aspects in the coefficients of the logistic regression model, PDP and marginal effects, while the results were somewhat different in random forest. In the case of delinquency, both of artificial neural networks and random forest models showed that the months of delinquency (-), the total amount of overdue payments (-) and the credit rating (+) were in conflict with common sense, which is one of the interesting aspects of this study. It also sought to identify new potential variables through PDP, marginal effects, and SHAP analysis on datasets that added derived variables to existing independent variables. Variables related to housing price change rate in logistic regression and artificial neural network, and those related to the capital ratio in random forest, were judged to be meaningful.
      To compare predictive power, logistic regression was used as a econometrics technique and neural network and random forest were used as a machine learning technique. As a result, the machine learning model was found to be excellent in all indicators that verify predictive power such as Accuracy, F1 Score, and Area Under the Curve (AUC).
      By applying the machine learning-based model with the characteristics of “black box” form to mortgage default, this study verified the practical use potential of the explainability, as well as the predictability of the machine learning model. Furthermore, the machine learning model of this study is expected to serve as a guide for domestic financial institutions to manage the risks of mortgage loans on a machine learning basis. The results of this study could also be used to provide beneficial policy working-level guidelines when the government draws up policies to regulate household debt in the local real estate market.

      더보기

      국문 초록 (Abstract)

      기계학습은 인공지능의 한 분야로, 전통적 계량 기법에 비해 우수한 예측 능력을 갖는 것으로 알려져 있다. 전통적 계량 기법은 부동산 분야를 포함한 사회 과학 분야에 있어 많이 활용되는 ...

      기계학습은 인공지능의 한 분야로, 전통적 계량 기법에 비해 우수한 예측 능력을 갖는 것으로 알려져 있다. 전통적 계량 기법은 부동산 분야를 포함한 사회 과학 분야에 있어 많이 활용되는 반면, 그에 반해 기계학습은 Black Box 모형의 특징으로 결과에 대한 원인을 설명하는 능력이 부족한 단점이 존재한다. 하지만, 최근 기계학습 분야에 있어 XAI (eXplainable Artificial Intelligence)에 대한 연구를 통해 기계학습 모형의 설명가능성(Explainability)에 대한 관심이 높아지는 추세이다. 이러한 기계학습의 설명 가능성은 기존의 계량 기법 위주로 활용되거나 기계학습의 예측 능력 위주로 적용되던 사회 과학 분야(부동산, 금융 등)에 있어 다양한 연구의 가능성을 열어 주는 계기를 마련하였다. 이에 따라 본 연구에서는 기계학습의 설명가능성을 주택담보대출 채무불이행에 적용하여 실증 연구를 수행하였다.
      최근 국내 주택 가격은 수도권 등 공급 감소과 저금리 기조에 따라 상승 추세에 있으나, 경기 침체 위험 및 그에 따른 주택 가격 하락에 의해 주택담보대출의 부실 위험과 규모는 확대될 수 있다. 또한, 금융 기관은 위험 자산에 대한 위험 가중치를 정확하게 산정하는 자구적 노력을 통해 BIS(Bank for International Settlements) 비율을 보다 정확하게 측정하고 이를 감독 기관으로부터 인정받는 것 또한 중요해졌다. 하지만, 기존의 주택담보대출과 관련된 연구에서 연체나 채무불이행, 또는 조기 상환 위험에 대해 전통적 계량 모형을 기반으로 관련 요인을 설명하는 데 치중해 왔다. 따라서, 기계학습 기반으로 보다 섬세한 채무불이행 위험 측정을 통해 내부 모형의 유효성을 증진시시키고, 채무불이행 위험에 대한 효율적인 규제 순응 기제로 활용될 수 있을 것으로 판단한다.
      본 연구에서는 미 Freddie Mac社의 주택담보대출 자료를 이용하여 기계학습 기반(인공 신경망과 랜덤 포레스트)의 주택담보대출 채무불이행 모형을 도출하고, 모형에 나타난 채무불이행 위험의 요인을 PDP(Partail Dependence Plot), 한계 효과, SHAP(Shapley Additive Explanations) 등으로 설명하고자 하였다. 더불어, 전통적 계량 기법과 기계학습 모형의 예측력을 비교함으로써, 설명력뿐만 아니라, 예측력에 있어서도 기계학습 모형의 우수성을 설명하였다.
      먼저, 계량 기법 중 하나인 로지스틱 회귀와 기계학습 기법 모형을 비교한 결과, 로지스틱 회귀 모형과 인공 신경망 모형을 통해 로지스틱 회귀 모형의 회귀 계수, PDP 및 한계 효과 등에서 두 모형이 대체적으로 비슷한 양상을 보인 반면, 랜덤 포레스트는 다소 상이한 결과를 보였다. 연체 상황 하에서는 인공 신경망과 랜덤 포레스트 두 모형 모두에서 연체 개월(-), 총 연체액(-), 신용 평점(+)가 상식과 대치되는 결과로, 본 연구 결과에서 흥미로운 부분 중 하나이다. 또한 기존의 설명 변수에 파생 변수를 추가한 데이터셋에 PDP, 한계 효과, SHAP 분석를 통해 신규 가망 변수를 파악하고자 하였다. 로지스틱 회귀와 인공 신경망에는 주택 가격 변화율 관련 변수가, 랜덤 포레스트에서는 자본 비율 관련 변수가 활용 가능성이 있는 변수로 고려되었다.
      예측력 비교를 위해, 계량 기법으로는 로지스틱 회귀 모형을 사용하였고, 기계학습 기법으로는 인공 신경망과 랜덤 포레스트 모형을 사용하였다. 그 결과, 정확도(Accuracy), F1 Score, AUC (Area Under the Curve) 등 예측력을 검증하는 모든 지표에서 기계학습 모형이 우수한 것을 확인할 수 있었다.
      본 연구를 통해 “Black Box 형태”의 특성을 갖는 기계학습 기반의 모형을 주택담보대출 채무불이행에 적용함으로써, 기계학습 모형의 예측력 뿐만 아니라, 설명가능성의 실무적 활용 가능성을 검증하였다. 더 나아가, 국내 금융기관이 기계학습 기반으로 주택담보대출 위험관리 시 길잡이 역할을 할 것으로 기대하며, 정책 입안 측면에서는 국내 부동산 금융시장의 가계부채에 대한 거시건전성 규제를 담당하는 정부에게도 유익한 정책적 실무지침을 제공하는 데 활용할 수 있을 것이다.

      더보기

      목차 (Table of Contents)

      • 제1장 서론 1
      • 제1절 연구의 배경 및 목적 1
      • 1. 연구의 배경 1
      • 2. 연구의 목적 2
      • 제2절 연구의 범위 및 방법 4
      • 제1장 서론 1
      • 제1절 연구의 배경 및 목적 1
      • 1. 연구의 배경 1
      • 2. 연구의 목적 2
      • 제2절 연구의 범위 및 방법 4
      • 1. 연구의 범위 및 방법 4
      • 2. 연구의 구성 4
      • 제2장 이론적 고찰 및 선행 연구 6
      • 제1절 주택담보대출 채무불이행 위험에 관한 연구 6
      • 1. 주택담보대출 채무불이행 위험의 이론적 배경 6
      • 2. 주택담보대출 채무불이행에 대한 선행 연구 7
      • 제2절 계량 모형과 기계학습 13
      • 1. 로지스틱 회귀분석 16
      • 2. 인공 신경망 17
      • 3. 랜덤 포레스트 18
      • 제3절 설명력에 대한 이론적 검토 22
      • 1. 설명력에 대한 선행 연구 22
      • 2. 주요 설명력 측정 기법 29
      • 제3장 실증 분석 방안 34
      • 제1절 Dataset 및 변수 35
      • 1. Dataset과 활용 변수 35
      • 2. 변수별 기초 통계량 39
      • 제2절 설명력 분석 방안 41
      • 1. 설명력 분석 모형 41
      • 2. 설명력 측정 방안 43
      • 제3절 예측력 분석 방안 46
      • 1. 예측력 분석 모형 46
      • 2. 예측력의 측정 방안 48
      • 제4장 실증 분석 결과 53
      • 제1절 모형간 설명력 비교 53
      • 1. 로지스틱 회귀 모형 53
      • 2. 인공 신경망 모형 57
      • 3. 랜덤 포레스트 모형 65
      • 4. LIME 기반의 모형 판단 결과 분석 74
      • 제2절 Subset에 통한 설명력 기반의 모형 분석 77
      • 1. 인공 신경망 기반의 Sand 주에 대한 분석 결과 77
      • 2. 인공 신경망 기반의 신탁 경매 주에 대한 분석 결과 80
      • 3. 인공 신경망 기반의 2회 연체에 대한 분석 결과 84
      • 4. 랜덤 포레스트 기반의 Sand 주에 대한 분석 결과 87
      • 5. 랜덤 포레스트 기반의 신탁 경매 주에 대한 분석 결과 90
      • 6. 랜덤 포레스트 기반의 2회 연체 건에 대한 분석 결과 93
      • 7. 연체 상황 하에서 신용 평점과 그 외 변인간 영향 분석 96
      • 제3절 신규 파생 변수 추가에 대한 모형 설명력 분석 101
      • 1. 로지스틱 회귀 모형 결과 101
      • 2. 인공 신경망 모형 결과 103
      • 3. 랜덤 포레스트 모형 결과 107
      • 제4절 예측력에 대한 검증 117
      • 1. 주택담보대출 채무불이행 모형의 학습 117
      • 2. 주택담보대출 채무불이행 모형을 통한 예측 119
      • 제5장 결론 124
      • 참고문헌 127
      • 부 록 136
      • ABSTRACT 147
      더보기

      참고문헌 (Reference) 논문관계도

      1 김경선, 신승우, "미국 주택담보대출 연체의 재해석", 『부동산학연구』. 제20권 제3호, 2014

      2 김문년, "이용만. "주택담보대출의 연체위험 분석"", 『주택연구』. 제23권 제2호, 2015

      3 심종원, 정현정, 정의철, "“주택담보대출 연체율 결정 요인에 관한 연구”", 『부동산학연구』. 제15권 제2호, 2009

      4 김정인, 최창규, 지규현, "주택담보대출 위험관리를 위한 차입자 특성 분석", 『국토계획』. 제41권 제4호, 2006

      5 박세운, 방두완, 박연우, "한국 모기지시장의 채무불이행 및 조기상환 분석", ??금융연구』. 제24권 제4호, 2010

      6 안정근, 유재술, "주택담보대출의 연체가능성 분석방법에 대한 연구", 『지적』. 제43권 제2호, 2013

      7 김경선, 신승우, "A Systematic Analysis on Default Risk Based on Delinquency Probability", 『부동산연구』. 제28권 제3호, 2018

      8 김동섭, 신승우, "주택담보대출의 채무불이행 위험 연구: 기계학습접근법", 『경영컨설팅연구』. 제19권 제2호, 2019

      9 강규호, "베이지안 머신 러닝을 이용한 은행권 주택담보대출 예측", 『금융안정연구』. 제19권 제1호, 2018

      10 김유정, 문영기, "“주택가격변동과 주택담보대출 연체율의 동태적 분석”", 『주거환경』. 제9권 제2호, 2011

      1 김경선, 신승우, "미국 주택담보대출 연체의 재해석", 『부동산학연구』. 제20권 제3호, 2014

      2 김문년, "이용만. "주택담보대출의 연체위험 분석"", 『주택연구』. 제23권 제2호, 2015

      3 심종원, 정현정, 정의철, "“주택담보대출 연체율 결정 요인에 관한 연구”", 『부동산학연구』. 제15권 제2호, 2009

      4 김정인, 최창규, 지규현, "주택담보대출 위험관리를 위한 차입자 특성 분석", 『국토계획』. 제41권 제4호, 2006

      5 박세운, 방두완, 박연우, "한국 모기지시장의 채무불이행 및 조기상환 분석", ??금융연구』. 제24권 제4호, 2010

      6 안정근, 유재술, "주택담보대출의 연체가능성 분석방법에 대한 연구", 『지적』. 제43권 제2호, 2013

      7 김경선, 신승우, "A Systematic Analysis on Default Risk Based on Delinquency Probability", 『부동산연구』. 제28권 제3호, 2018

      8 김동섭, 신승우, "주택담보대출의 채무불이행 위험 연구: 기계학습접근법", 『경영컨설팅연구』. 제19권 제2호, 2019

      9 강규호, "베이지안 머신 러닝을 이용한 은행권 주택담보대출 예측", 『금융안정연구』. 제19권 제1호, 2018

      10 김유정, 문영기, "“주택가격변동과 주택담보대출 연체율의 동태적 분석”", 『주거환경』. 제9권 제2호, 2011

      11 신승우, "보금자리론의 채무불이행 및 조기상환 위험에 관한 실증적 연구", 『주택연구』. 제16권 제3호, 2008

      12 문선영, "불균형 자료에서 랜덤 포레스트에 기반한 분류 방법의 성능 비교", 석사학위논문. 고려대학교 대학원, 2018

      13 김주영, "신경망 (Neural Network) 모델들의 비교를 통한 가맹사업 매출예측분석", 『마케팅연구』. 제33권 제3호, 2018

      14 박종훈, "소유주택과 점유주택의 불일치 현상에 관한 실증연구: 교육요인을 중심으로”", 『한국주거학회논문집』. 제29권 제1호, 2018

      15 박종찬, "소유주택과 점유주택의 불일치 현상에 관한 실증연구: 교육요인을 중심으로”", 『한국주거학회논문집』. 제29권 제2호, 2018

      16 이성우, "소유주택과 점유주택의 불일치 현상에 관한 실증연구: 교육요인을 중심으로”", 『한국주거학회논문집』. 제29권 제3호, 2018

      17 김희종, "그라디언트 부스팅과 균형 분류를 이용한 채무 불이행 예측”▒『한국정보기술학회논문지』, 제12권 1호", 2014

      18 김형도, "그라디언트 부스팅과 균형 분류를 이용한 채무 불이행 예측”▒『한국정보기술학회논문지』, 제12권 2호", 2014

      19 박종훈, "주택의 투자가치와 시장가치의 변화가 가구의 점유형태 결정에 미치는 영향에 관한 연구: 아파트 유형을 중심으로”", 『국토연구』. 제91권, 2016

      20 이성우, "주택의 투자가치와 시장가치의 변화가 가구의 점유형태 결정에 미치는 영향에 관한 연구: 아파트 유형을 중심으로”", 『국토연구』. 제92권, 2016

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼