Azure HDInsight Spark 클러스터를 통해 대출 상환 예측

HDInsight
Power BI

솔루션 아이디어

잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보를 사용하여 이 문서를 확장하려는 경우 GitHub 피드백을통해 알려주세요!

청구 되는 대출은 일반적으로 채권자 (일반적으로 대출 기관)에 의해 선언 되는 대출으로, 일반적으로 대출금의 지불이 채무자에 상당한 연체 경우에 수집 될 가능성이 적습니다. 높은 상각가 대출 기관의 연간 최종 financials에 부정적인 영향을 미치는 경우 대출 기관은 대출 부과를 방지 하기 위해 대출 상각 위험을 매우 긴밀 하 게 모니터링 하는 경우가 많습니다. 대출 기관은 Azure HDInsight에서 ML 서비스를 사용 하 여 기계 학습 예측 분석을 사용 하 여 대출 청구 가능성을 예측 하 고 HDFS 및 hive 테이블에 저장 된 분석 결과에 대 한 보고서를 실행할 수 있습니다.

Architecture

아키텍처 다이어그램

이 아키텍처의 SVG 를 다운로드 합니다.

데이터 흐름

  1. 일부 데이터를 만들고 ML 예측을 위한 데이터 원본 정의
  2. 로컬 계산 (또는 spark) 컨텍스트를 사용 하 여 데이터에 대해 로지스틱 회귀를 실행 하 여 대출 청구 변수를 예측 합니다.
  3. Azure HDInsights spark 커넥터를 사용 하 여 테이블에 연결
  4. Power BI를 사용 하 여이 데이터를 해석 하 고 새 시각화를 만듭니다.
  5. 필드 PC, 모바일 등의 인기 있는 장치에서 사용할 수 있는 웹 서비스로 모델을 배포 합니다.

Description

이 솔루션은 Azure HDInsight에서 ML Services 유형의 클러스터를 만듭니다. 이 클러스터에는 헤드 노드 2 개, 작업자 노드 2 개 및 총 32 코어를 포함 하는 1에 지 노드가 포함 됩니다. 이 HDInsight Spark 클러스터에 대 한 대략적인 비용은 $8.29/시간입니다. 클러스터를 만들면 청구가 시작 되 고 클러스터를 삭제 하면 청구가 중지 됩니다. 분 단위로 청구되므로 더 이상 사용하지 않으면 항상 클러스터를 삭제해야 합니다. 완료 되 면 배포 페이지를 사용 하 여 전체 솔루션을 삭제할 수 있습니다.

개요

대출 기관에는 대출 상각 예측 데이터를 제공 하는 여러 가지 이점이 있습니다. 대출 청구는 해당 은행이 심각한 연체 대출에 대해 수행 하는 최후의 수단으로, 예측 데이터를 사용 하 여, 대출 담당자는 고객이 대출 지불액을 유지 하 고 요금 부과를 방지 하는 데 도움을 주기 위해 더 저렴 한 이자율과 같은 개인 설정 된 성과급을 제공할 수 있습니다. 이러한 유형의 예측 데이터를 얻기 위해 크레딧 공용 구조체 또는 뱅크는 고객이 과거 지불 기록을 기반으로 데이터를 수동으로 작성 하 고 간단한 통계 회귀 분석을 수행 하는 경우가 많습니다. 이 방법은 데이터 컴파일 오류가 발생 하 고 통계적으로 사운드가 들리지 않습니다.

이 솔루션 템플릿은 대출 데이터에 대 한 예측 분석을 실행 하 고 상각 확률에 점수를 산출 하기 위한 솔루션 종단을 보여 줍니다. 또한 PowerBI 보고서는 크레딧 대출 및 상각 확률 예측의 분석과 추세를 안내 합니다.

비즈니스 관점

이 대출 상각 예측에서는 시뮬레이트된 대출 기록 데이터를 사용 하 여 즉시 미래 (다음 3 개월)의 대출 상각 확률을 예측 합니다. 점수가 높을수록 미래는 대출 청구의 확률을 계산 합니다.

분석 데이터를 사용 하 여 대출 관리자는 상각 대출에 대 한 추세 및 분석을 분기 위치로도 제공 합니다. 높은 상각 위험 대출의 특징은 대출 관리자가 해당 지역의 대출 제품에 대 한 비즈니스 계획을 만드는 데 도움이 됩니다.

Power BI는 대출 지불액과 상각 예측의 시각적 요약도 제공 합니다 (여기에는 시뮬레이션 된 데이터가 표시 됨). 오른쪽에 있는 "지금 평가판 사용해 보세요." 단추를 클릭 하 여이 대시보드를 사용해 볼 수 있습니다.

데이터 과학자 관점

이 솔루션 템플릿은 대출 상각 위험을 예측 하기 위해 시뮬레이트된 대출 기록 데이터 집합을 사용 하 여 예측 분석을 개발 하는 방법의 종단 간 프로세스를 안내 합니다. 데이터에는 대출 부 통계 데이터, 대출 금액, 계약 대출 기간 및 대출 지불 기록과 같은 정보가 포함 됩니다. 솔루션 템플릿에는 데이터 처리, 기능 엔지니어링 및 여러 가지 알고리즘을 수행 하 여 데이터를 학습 하는 R 스크립트 집합과 데이터의 점수를 매기는 각 대출에 대 한 확률 점수를 산출 하는 데 가장 적합 한 모델을 선택 하는 것도 포함 됩니다.

이 솔루션을 테스트 하는 데이터 과학자는 Azure HDInsight 클러스터에서 ML Services의에 지 노드에서 실행 되는 rstudio 서버의 브라우저 기반 오픈 소스 버전에서 제공 된 R 코드를 사용할 수 있습니다. 사용자는 계산 컨텍스트를 설정 하 여 계산을 수행할 위치를 결정할 수 있습니다. 즉,에 지 노드에서 로컬로 또는 Spark 클러스터의 노드 간에 분산 됩니다. 모든 R 코드는 공용 GitHub 리포지토리에서도 찾을 수 있습니다. 즐거운 시간 보내세요!

구성 요소

  • Azure hdinsight: azure hdinsight는 기업에 대 한 클라우드에서 관리 되는 전체 스펙트럼 오픈 소스 분석 서비스입니다. Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R 등과 같은 오픈 소스 프레임워크를 사용할 수 있습니다.
  • Power BI 는 SQL Server에 저장 된 데이터를 사용 하 여 예측에 대 한 결정을 내리는 대화형 대시보드를 제공 합니다.

참고 항목