Låne kring nedskrivning förutsägelse med Azure HDInsight Spark kluster

R Server for HDInsight
Power BI

Lösnings idé Solution Idea

Om du vill se den här artikeln med mer information, implementerings information, prissättnings vägledning eller kod exempel kan du berätta för oss med GitHub feedback!If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Ett debiterat lån är ett lån som deklareras av en fordrings havare (vanligt vis en utlånings institution) om att en skuld belopp inte skulle samlas in, vanligt vis när låne åter betalningen allvarligt eftersatta av gäldenären.A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. Med tanke på att hög kring nedskrivning har negativ inverkan på utlånings institutionernas års bokslut övervakar utlånings institutioner ofta lån för kring nedskrivning-risker mycket nära för att förhindra lån från att bli debiterade.Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Med hjälp av ML-tjänster i Azure HDInsight kan en låne institution använda Machine Learning förutsägelse analys för att förutsäga sannolikheten för lån som debiteras och köra en rapport om analys resultatet som lagras i HDFS-och Hive-tabeller.Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.

ArkitekturArchitecture

Arkitekturdiagram

Ladda ned en SVG -arkitektur av den här arkitekturen.Download an SVG of this architecture.

DataflödeData flow

  1. Skapa data och definiera data källor för den ML förutsägelsenCreate some data and define data sources for the ML prediction
  2. Kör en logistik regression över data med hjälp av den lokala beräknings kontexten (eller Spark) till att förutsäga låne avgiften för variabelnRun a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Använd Azure HDInsights Spark Connector för att ansluta till tabellenUse Azure HDInsights spark connector to connect to the table
  4. Använd Power BI för att tolka dessa data och skapa nya visualiseringarUse Power BI to interpret this data and create new visualizations
  5. Valfritt Distribuera modellen som en webb tjänst som kan förbrukas på populära enheter som PC och mobil(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile

BeskrivningDescription

Den här lösningen skapar ett kluster av typen ML-tjänster på Azure HDInsight.This solution will create a cluster of type ML Services on Azure HDInsight. Det här klustret kommer att innehålla 2 Head-noder, 2 arbetsnoder och 1 Edge-nod med totalt 32 kärnor.This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. Den ungefärliga kostnaden för det här HDInsight Spark-klustret är $8.29/timme.The approximate cost for this HDInsight Spark cluster is $8.29/hour. Faktureringen startar när ett kluster skapas och stoppas när klustret tas bort.Billing starts once a cluster is created and stops when the cluster is deleted. Debiteringen görs i förväg per minut, så du ska alltid ta bort ditt kluster när det inte används.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Använd sidan distributioner för att ta bort hela lösningen när du är färdig.Use the Deployments page to delete the entire solution once you are done.

ÖversiktOverview

Det finns flera fördelar med att utlånings institutioner kan utrustas med låne kring nedskrivning förutsägelse data.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Att betala ut ett lån är den sista utväg som banken kommer att göra på ett allvarligt eftersatta lån, med förutsägelse data till hands, kan låne befälet erbjuda personligt anpassade incitament, till exempel lägre ränte satser eller längre åter betalnings period, så att kunderna kan fortsätta att göra låne betalningar och därmed förhindra att lånet debiteras.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. För att komma till den här typen av förutsägelse data kan kredit unioner eller banker manuellt Handcraft data baserat på kundernas tidigare betalnings historik och utfört enkel statistisk Regressions analys.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Den här metoden är hög beroende av data kompileringsfel och inte statistiskt ljud.This method is highly subject to data compilation error and not statistically sound.

Den här lösnings mal len visar en lösning som avslutas för att köra förutsägelse analys på låne data och ge poäng på kring nedskrivning sannolikhet.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. En PowerBI-rapport kommer också att gå igenom analysen och trenden för kredit lån och förutsägelse av kring nedskrivning-sannolikhet.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

Affärs perspektivBusiness perspective

Den här låne kring nedskrivning förutsägelsen använder en simulerad låne historik data för att förutsäga sannolikheten för låne kring nedskrivning i omedelbar framtid (de kommande tre månaderna).This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Ju högre poäng desto högre är sannolikheten för lånet att debiteras i framtiden.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Med analys data presenteras låne chefen också med trender och analyser av kring nedskrivning lån efter avdelnings platser.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. Egenskaperna hos de hög kring nedskrivning riskerar lån gör det lättare för låne ansvariga att skapa affärs planer för låne erbjudanden i det specifika geografiska området.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

Microsoft R Server på HDInsight Spark-kluster innehåller distribuerade och skalbara maskin inlärnings funktioner för Big data med hjälp av den kombinerade kraften i R Server och Apache Spark.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. Den här lösningen visar hur du utvecklar maskin inlärnings modeller för att förutsäga låne kring nedskrivning (inklusive data bearbetning, funktions teknik, utbildning och utvärdering av modeller), distribuera modellerna som en webb tjänst (på Edge-noden) och använda webb tjänsten via fjärr anslutning med ML-tjänster på Azure HDInsight.This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. De slutliga förutsägelserna sparas i en Hive-tabell som kan visualiseras i Power BI.The final predictions is saved to a Hive table which could be visualized in Power BI.

Power BI också visar visuella sammanfattningar av låne betalningar och kring nedskrivning förutsägelser (visas här med simulerade data).Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). Du kan prova den här instrument panelen genom att klicka på knappen prova nu till höger.You can try out this dashboard by clicking the "Try it Now" button to the right.

Data expert perspektivData scientist perspective

Den här lösnings mal len vägleder dig genom hela processen för att utveckla förutsägelse analys med hjälp av en uppsättning simulerade låne historik data för att förutsäga låne kring nedskrivning-risken.This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. Datan innehåller information som låne innehavare demografiska data, låne belopp, låne tid och låne betalnings historik.The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. Lösnings mal len innehåller också en uppsättning R-skript som utför data bearbetning, funktions teknik och flera olika algoritmer för att träna data och slutligen välja den bästa presterande modellen för att skapa sannolikhets Poäng för varje lån.The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. Lösningen innehåller också skript för att distribuera modellen som en webb tjänst (på Edge-noden) och använda webb tjänsten via fjärr anslutning med Microsoft R Server på Azure HDInsight Spark-kluster.The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Data tekniker som testar den här lösningen kan arbeta med den angivna R-koden från den webbläsarbaserade versionen av RStudio-servern som körs på Edge-noden i ML-tjänster i Azure HDInsight-kluster.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. Genom att ange den beräknings kontext som användaren kan bestämma var beräkningen ska utföras: lokalt på Edge-noden eller distribueras mellan noderna i Spark-klustret.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. All R-kod kan också hittas i den offentliga GitHub-lagringsplatsen.All the R code can also be found in public GitHub repository. Ha det så kul!Have fun!

KomponenterComponents

  • Azure HDInsight: Azure HDInsight är en hanterad analys tjänst med full spektrum och öppen källkod i molnet för företag.Azure HDInsight: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Du kan använda ramverk baserade på öppen källkod, till exempel Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R med flera.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • Power BI tillhandahåller en interaktiv instrument panel med visualisering som använder data som lagrats i SQL Server för att öka besluten om förutsägelserna.Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

Se ävenSee also