Předpověď odepisování půjček s clustery Azure HDInsight Spark

R Server pro HDInsight
Power BI

Nápad řešení Solution Idea

Pokud se chcete podívat, jak nás rozšířit tento článek o další informace, podrobnosti implementace, doprovodné materiály nebo příklady kódu, dejte nám vědět s názory na GitHubu.If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Účtuje se za vypůjčenou půjčkou, která je deklarována prostřednictvím věřitele (obvykle instituce pro půjčování), že částka dluhu není pravděpodobně shromažďována, obvykle v případě, že je platba za úvěr vážně problematické dlužníkem.A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. Vzhledem k tomu, že vysoká odepisování má záporný dopad na finanční služby úvěrových institucí na konci roku, instituce poskytující úvěrové služby často sledují riziko úvěrového odepisování, aby se předešlo tomu, že se úvěry účtují.Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Pomocí služeb ML ve službě Azure HDInsight může úvěrová instituce využít prediktivní analýzu Machine Learning k předběžnému účtování pravděpodobnosti půjček a spuštění sestavy na výsledku analýzy uložené v HDFS a tabulkách podregistru.Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.

ArchitekturaArchitecture

Diagram architektury

Stáhnout SVG této architektury.Download an SVG of this architecture.

Tok datData flow

  1. Vytvoření některých dat a definování zdrojů dat pro předpověď MLCreate some data and define data sources for the ML prediction
  2. Spuštění logistické regrese na základě dat pomocí místního výpočetního (nebo Sparku) kontextu pro předpověď půjček za proměnnouRun a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Pomocí konektoru Azure HDInsights Spark se připojte k tabulce.Use Azure HDInsights spark connector to connect to the table
  4. Pomocí Power BI interpretovat tato data a vytvářet nové vizualizaceUse Power BI to interpret this data and create new visualizations
  5. Volitelné Model nasaďte jako webovou službu, kterou je možné využít na oblíbených zařízeních, jako je počítač a mobilní zařízení.(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile

DescriptionDescription

Toto řešení vytvoří cluster se službou typu ML v Azure HDInsight.This solution will create a cluster of type ML Services on Azure HDInsight. Tento cluster bude obsahovat 2 hlavní uzly, 2 pracovní uzly a 1 hraniční uzel s celkovým počtem 32 jader.This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. Přibližné náklady na tento cluster HDInsight Spark jsou $8.29/Hour.The approximate cost for this HDInsight Spark cluster is $8.29/hour. Po vytvoření clusteru a jeho zastavení se začne účtovat.Billing starts once a cluster is created and stops when the cluster is deleted. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Po dokončení můžete odstranit celé řešení pomocí stránky nasazení.Use the Deployments page to delete the entire solution once you are done.

PřehledOverview

Instituce pro poskytování půjček mají k dispozici více výhod pro vyvýšení odepisováních dat předpovědi.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Zpoplatnění úvěru je poslední možnost, kterou banka provede na vážně problematické půjčku, s využitím dat předpovědi, úředník pro úvěrování by mohl nabízet individuální pobídky, jako je nižší úroková sazba nebo delší doba splatnosti, aby zákazníci mohli průběžně zajišťovat platby, a tak zabránit tomu, aby se úvěr vyrovnal.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. Chcete-li získat tento typ dat předpovědi, často úvěrové svazy nebo banky zpracovávají data na základě historie plateb zákazníků a prováděli jednoduchou statistickou regresní analýzu.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Tato metoda je vysoce předmětem chyby při kompilaci dat a není statisticky zdravá.This method is highly subject to data compilation error and not statistically sound.

Tato šablona řešení demonstruje řešení na konci ke spouštění prediktivních analýz na základě dat půjček a vyprodukuje bodování odepisování pravděpodobnosti.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. Sestava PowerBI také projde analýzou a trendem úvěrových půjček a předpovědi odepisování pravděpodobnosti.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

Obchodní perspektivaBusiness perspective

Tato předpověď půjček odepisování využívá Simulovaná data o historii půjček k předpovědi pravděpodobnosti půjček půjček v bezprostřední budoucnosti (další tři měsíce).This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Čím vyšší je skóre, tím vyšší je pravděpodobnost, že se úvěr účtuje v budoucnu.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Pomocí analytických dat se správce půjček zobrazuje také s trendy a analýzou odepisování půjček podle umístění poboček.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. Charakteristiky rizikových půjček s vysokou odepisováníou pomohou manažerům půjček v rámci této konkrétní zeměpisné oblasti vytvořit obchodní plán pro nabídku půjček.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

Microsoft R Server v clusterech HDInsight Spark poskytují distribuované a škálovatelné možnosti strojového učení pro velké objemy dat pomocí kombinované síly R Server a Apache Spark.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. Toto řešení ukazuje, jak vyvíjet modely strojového učení pro předpověď půjček odepisování (včetně zpracování dat, vytváření funkcí, školení a vyhodnocování modelů), nasazení modelů jako webové služby (na hraničním uzlu) a vzdálené využívání webové služby pomocí služby ML Services v Azure HDInsight.This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. Konečný předpovědi se uloží do tabulky podregistru, kterou je možné vizuálně vyPower BI.The final predictions is saved to a Hive table which could be visualized in Power BI.

Power BI taky prezentuje vizuální přehledy o platbách půjček a odepisování předpovědi (tady se zobrazují Simulovaná data).Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). Tento řídicí panel si můžete vyzkoušet kliknutím na tlačítko vyzkoušet nyní na pravé straně.You can try out this dashboard by clicking the "Try it Now" button to the right.

Perspektiva pro data – vědeckýData scientist perspective

Tato šablona řešení vás provede koncovým procesem vývoje prediktivních analýz pomocí sady simulovaných dat o historii půjček za účelem předpovědi půjček odepisování rizik.This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. Data obsahují informace, jako jsou demografická data držitele půjček, úvěrové nároky, smluvní doba trvání půjček a historie plateb půjček.The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. Šablona řešení obsahuje také sadu skriptů R, které provádějí zpracování dat, strojírenství funkcí a několik různých algoritmů, aby data mohla probíhat, a nakonec výběr nejlepšího výkonného modelu, který vyhodnotí data a vytvoří skóre pravděpodobnosti pro každou půjčku.The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. Řešení zahrnuje také skripty pro nasazení modelu jako webové služby (na hraničním uzlu) a vzdálené využívání webové služby s Microsoft R Server v clusterech Azure HDInsight Spark.The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Odborníci na data, kteří testují toto řešení, můžou pracovat se zadaným kódem R z open source edice RStudio serveru, která běží na hraničním uzlu služby ML Services v clusteru Azure HDInsight.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. Nastavením výpočetního kontextu může uživatel rozhodnout, kde bude proveden výpočet: místně na hraničním uzlu nebo distribuován napříč uzly v clusteru Spark.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. Veškerý kód R se taky dá najít ve veřejném úložišti GitHubu.All the R code can also be found in public GitHub repository. Bav se!Have fun!

KomponentyComponents

  • Azure HDInsight: Azure HDInsight je spravovaná, plně spektrum Open Source služby pro analýzu v cloudu pro podniky.Azure HDInsight: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Můžete použít Open Source architektury, jako jsou Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R a další.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • Power BI poskytuje interaktivní řídicí panel s vizualizací, která používá data uložená v SQL Server k řízení rozhodnutí na předpovědi.Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

Viz takéSee also