Stima dell'addebito dei prestito Azure HDInsight Spark cluster

HDInsight
Power BI

Idea della soluzione

Se si desidera vedere questo articolo con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o linee guida sui prezzi, è possibile inviare commenti e suggerimenti GitHub!

Un prestito addebitato è un prestito dichiarato da un creditore (in genere un istituto di credito) che è improbabile che un importo del debito sia incassato, in genere quando il rimborso del prestito viene fortemente delinquente dal debitore. Dato che l'addebito elevato ha un impatto negativo sui dati finanziari di fine anno degli istituti di credito, gli istituti di credito monitorano spesso molto attentamente il rischio di addebito dei crediti per evitare che i crediti non riceventino addebiti. Usando ML Services in Azure HDInsight, un istituto di credito può usare l'analisi predittiva di Machine Learning per stimare la probabilità di addebiti per i pazienti ed eseguire un report sui risultati dell'analisi archiviati in HDFS e nelle tabelle Hive.

Architettura

Diagramma dell'architettura

Scaricare una versione SVG di questa architettura.

Flusso di dati

  1. Creare alcuni dati e definire le origini dati per la stima ML dati
  2. Eseguire una regressione logistica sui dati usando il contesto di calcolo locale (o Spark) per stimare l'addebito dei prestito dalla variabile
  3. Usare il connettore Spark di Azure HDInsights per connettersi alla tabella
  4. Usare Power BI per interpretare questi dati e creare nuove visualizzazioni
  5. (Facoltativo) Distribuire il modello come servizio Web che può essere utilizzato nei dispositivi più diffusi, ad esempio PC e dispositivi mobili

Descrizione

Questa soluzione creerà un cluster di tipo ML Services in Azure HDInsight. Questo cluster conterrà 2 nodi head, 2 nodi di lavoro e 1 nodo perimetrale con un totale di 32 core. Il costo approssimativo per questo cluster HDInsight Spark è $ 8,29/ora. La fatturazione inizia dopo la creazione di un cluster e si interrompe quando il cluster viene eliminato. La fatturazione avviene con tariffa oraria, perciò si deve sempre eliminare il cluster in uso quando non lo si usa più. Usare la pagina Distribuzioni per eliminare l'intera soluzione al termine.

Panoramica

Esistono diversi vantaggi per gli istituti di credito per fornire i dati di previsione del chargeoff dei prestito. L'addebito di un prestito è l'ultima risorsa che la banca farà su un prestito molto delinquente. Con i dati di stima a disposizione, il responsabile del prestito potrebbe offrire incentivi personalizzati, ad esempio un tasso di interesse inferiore o un periodo di rimborso più lungo, per aiutare i clienti a continuare a effettuare pagamenti di prestito, impedendo così l'addebito del prestito. Per ottenere questo tipo di dati di stima, spesso le unioni di credito o le banche creano manualmente i dati in base alla cronologia dei pagamenti precedenti dei clienti ed eseguiti semplici analisi di regressione statistica. Questo metodo è altamente soggetto a errori di compilazione dei dati e non statisticamente validi.

Questo modello di soluzione illustra una soluzione end-to-end per eseguire l'analisi predittiva sui dati dei prestito e produrre un punteggio sulla probabilità di chargeoff. Un report di PowerBI illustra anche l'analisi e la tendenza del credito e la stima della probabilità di chargeoff.

Prospettiva aziendale

Questa stima di chargeoff del prestito usa dati della cronologia dei prestito simulati per stimare la probabilità di chargeoff del prestito nell'immediato futuro (tre mesi successivi). Più alto è il punteggio, maggiore è la probabilità che il prestito sia addebitato in futuro.

Con i dati di analisi, il responsabile dei prestito presenta anche le tendenze e l'analisi del chargeoff per succursale. Le caratteristiche del rischio di addebito elevato consentono ai gestori di prestito di creare un piano aziendale per l'offerta di prestito in quell'area geografica specifica.

Power BI presenta anche riepiloghi visivi dei pagamenti di prestito e delle stime di chargeoff (mostrati qui con dati simulati). È possibile provare questo dashboard facendo clic sul pulsante "Prova adesso" a destra.

Prospettiva del data scientist

Questo modello di soluzione illustra il processo end-to-end di sviluppo dell'analisi delle previsioni usando un set di dati della cronologia dei prestito simulati per prevedere il rischio di addebito dei prestito. I dati contengono informazioni come i dati demografici del titolare del prestito, l'importo del prestito, la durata del prestito contrattuale e la cronologia dei pagamenti dei prestito. Il modello di soluzione include anche un set di script R che eseguono l'elaborazione dei dati, la progettazione delle funzionalità e diversi algoritmi per eseguire il training dei dati e infine selezionano il modello con le prestazioni migliori per calcolare i dati per produrre il punteggio di probabilità per ogni prestito.

I data scientist che stanno testando questa soluzione possono usare il codice R fornito dall'edizione Open Source di RStudio Server basata su browser eseguita nel nodo perimetrale dei servizi ML nel cluster Azure HDInsight. Impostando il contesto di calcolo, l'utente può decidere dove verrà eseguito il calcolo: in locale nel nodo perimetrale o distribuito tra i nodi del cluster Spark. Tutto il codice R è disponibile anche nel repository GitHub pubblico. Buon divertimento!

Componenti

  • Azure HDInsight:Azure HDInsight è un servizio di analisi open source gestito, ad ampio spettro nel cloud per le aziende. È possibile usare framework open source, ad esempio Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R e altri.
  • Power BI un dashboard interattivo con visualizzazione che usa i dati archiviati SQL Server per prendere decisioni sulle stime.

Vedi anche

  • Guida per gli sviluppatori Rad Azure: questo articolo offre una panoramica dei vari modi in cui i data scientist possono usare le proprie competenze esistenti con il linguaggio di programmazione R in Azure.
  • Analizzare Apache Spark dati usando Power BI in HDInsight:Come usare Microsoft Power BI per visualizzare i dati in un cluster Apache Spark in Azure HDInsight.
  • Rendere operativo un clusterML Services in Azure HDInsight: rendere operativo il modello per eseguire stime usando un cluster ML Services in Azure HDInsight.