Voorspelling van toe-eigening van leningen met Azure HDInsight Spark clusters

HDInsight
Power BI

Oplossingsidee

Als u wilt dat we dit artikel uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsinformatie, laat het ons dan weten met GitHub Feedback!

Een afgeschreven lening is een lening die wordt gedeclareerd door een lening (meestal een overheidsinstelling) dat het onwaarschijnlijk is dat er een bedrag aan schulden wordt afgeschreven, meestal wanneer de aflossing van de lening ernstig delinquent is door de bank. Gezien het feit dat hoge toegerekende kosten een negatieve invloed hebben op de eindejaarsleningen van de onderwijsinstellingen, houden de instellingen vaak het risico op het aftalen van leningen zeer nauwkeurig in de gaten om te voorkomen dat leningen in rekening worden gebracht. Met ML Services op Azure HDInsight kan een onderwijsinstelling machine learning predictive analytics gebruiken om de kans te voorspellen dat leningen in rekening worden gebracht en een rapport uit te voeren over het analyseresultaat dat is opgeslagen in HDFS- en Hive-tabellen.

Architectuur

Architectuurdiagram

Download een SVG van deze architectuur.

Gegevensstroom

  1. Maak enkele gegevens en definieer gegevensbronnen voor de ML voorspelling
  2. Een logistieke regressie uitvoeren op de gegevens met behulp van de lokale compute-context (of spark) om de toerekenen van leningen te voorspellen
  3. Azure HDInsights Spark-connector gebruiken om verbinding te maken met de tabel
  4. Gebruik Power BI om deze gegevens te interpreteren en nieuwe visualisaties te maken
  5. (Optioneel) Het model implementeren als webservice die kan worden gebruikt op populaire apparaten, zoals pc en mobiel

Description

Met deze oplossing wordt een cluster van het type ML Services op Azure HDInsight. Dit cluster bevat 2 hoofdknooppunten, 2 werkknooppunten en 1 edge-knooppunt met in totaal 32 kernen. De geschatte kosten voor dit HDInsight Spark-cluster zijn $ 8,29/uur. De facturering begint zodra een cluster is gemaakt en stopt wanneer het cluster wordt verwijderd. De facturering wordt pro-rato per minuut berekend, dus u moet altijd uw cluster verwijderen wanneer het niet meer wordt gebruikt. Gebruik de pagina Implementaties om de hele oplossing te verwijderen wanneer u klaar bent.

Overzicht

Er zijn meerdere voordelen voor de onderwijsinstellingen om te voorzien in voorspellingsgegevens over de toekosten van leningen. Het afberekenen van een lening is de laatste redmiddel dat de bank zal doen bij een zeer delinquent lening. Met de voorspellingsgegevens bij de hand kan de medewerker persoonlijke incentives aanbieden, zoals een lager rentepercentage of een langere aflossingsperiode, om klanten te helpen om leningen te blijven doen en zo te voorkomen dat de lening in rekening wordt gebracht. Om bij dit type voorspellingsgegevens te komen, maken kredietvakbonden of banken de gegevens handmatig op basis van de betalingsgeschiedenis van klanten uit het verleden en hebben ze eenvoudige statistische regressieanalyse uitgevoerd. Deze methode is zeer onderhevig aan een gegevenscompilatiefout en klinkt statistisch niet goed.

Deze oplossingssjabloon demonstreert een end-to-end oplossing voor het uitvoeren van predictive analytics op leninggegevens en het produceren van een score bij een toerekeningskans. In een PowerBI-rapport worden ook de analyse en trend van kredietrisico's en de voorspelling van de toerekeningskans door lopen.

Bedrijfsperspectief

Deze voorspelling van toerekening van leningen maakt gebruik van een gesimuleerde gegevens uit de leninggeschiedenis om de waarschijnlijkheid van toerekening van leningen in de nabije toekomst (volgende drie maanden) te voorspellen. Hoe hoger de score, hoe hoger de kans is dat de lening in de toekomst wordt afgeschreven.

Met de analysegegevens krijgt de manager van een lening ook de trends en analyses te zien van de afk betalende leningen per vertakkingslocaties. Kenmerken van de leningen met een hoog risico helpen kredietbeheerders bij het maken van een bedrijfsplan voor het aanbieden van leningen in dat specifieke geografische gebied.

Power BI geeft ook visuele samenvattingen weer van de betalingen van de lening en de toebetalingsvoorspellingen (hier weergegeven met gesimuleerde gegevens). U kunt dit dashboard uitproberen door te klikken op de knop Nu proberen aan de rechterkant.

Perspectief van data scientist

Deze oplossingssjabloon doorloopt het end-to-end-proces van het ontwikkelen van analysevoorspeller met behulp van een reeks gesimuleerde gegevens over de leninggeschiedenis om het toe te schrijven risico op leningen te voorspellen. De gegevens bevatten informatie zoals demografische gegevens van de houder van de lening, het bedrag van de lening, de contractuele duur van de lening en de betalingsgeschiedenis van de lening. De oplossingssjabloon bevat ook een set R-scripts die gegevensverwerking, feature engineering en verschillende algoritmen uitvoeren om de gegevens te trainen, en ten slotte het best presterende model selecteren om de gegevens te scoren om de waarschijnlijkheidsscore voor elke lening te produceren.

Gegevenswetenschappers die deze oplossing testen, kunnen werken met de opgegeven R-code van de open source-versie van RStudio Server in de browser die wordt uitgevoerd op het Edge-knooppunt van de ML Services op Azure HDInsight-cluster. Door de compute-context in te stellen, kan de gebruiker bepalen waar de berekening wordt uitgevoerd: lokaal op het edge-knooppunt of gedistribueerd over de knooppunten in het Spark-cluster. Alle R-code is ook te vinden in de openbare GitHub opslagplaats. Veel plezier!

Onderdelen

  • Azure HDInsight:Azure HDInsight is een beheerde, zeer spectrum aan opensource-analyseservices in de cloud voor ondernemingen. U kunt populaire opensourcekaders zoals Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, enzovoort gebruiken.
  • Power BI biedt een interactief dashboard met visualisatie die gebruikmaakt van gegevens die zijn opgeslagen in SQL Server om beslissingen te nemen over de voorspellingen.

Zie ook