Prédiction de perte sèche de prêt avec clusters Azure HDInsight Spark

HDInsight
Power BI

Idée de solution

Si vous souhaitez nous voir développer cet article avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, faites-le nous savoir avec les Commentaires de GitHub.

Un prêt faisant l’objet d’une perte sèche est un prêt pour lequel un créancier (généralement un établissement de prêt) déclare qu’un montant de la dette est peu susceptible d’être collecté, généralement quand le débiteur est en sévère défaut de paiement sur le prêt. Étant donné qu’un taux élevé de pertes sèches a un impact négatif sur le bilan financier des établissements de prêt, ceux-ci supervisent souvent étroitement les risques de perte sèche afin d’empêcher que des prêts n’en fassent l’objet. À l’aide de ML Services sur Azure HDInsight, un établissement de prêt peut utiliser une analyse prédictive par Machine Learning pour prédire la probabilité de perte sèche de prêt, et générer un rapport sur le résultat de l’analyse stocké dans des tables Hive et HDFS.

Architecture

Diagramme de l'architecture

Téléchargez un fichier SVG de cette architecture.

Flux de données

  1. Créer des données et définir des sources de données pour la prédiction ML
  2. Exécuter une régression logistique sur les données à l’aide du contexte de calcul local (ou Spark) pour prédire la variable de perte sèche
  3. Utiliser le connecteur Spark Azure HDInsights pour se connecter à la table
  4. Utiliser Power BI pour interpréter ces données et créer des visualisations
  5. (Facultatif) Déployer le modèle en tant que service web pouvant être consommé sur des appareils populaires tels que PC et des appareils mobiles

Description

Cette solution crée un cluster de type ML Services sur Azure HDInsight. Ce cluster contiendra 2 nœuds principaux, 2 nœuds Worker et 1 nœud de périphérie, pour un total de 32 cœurs. Le coût approximatif de ce cluster HDInsight Spark est de 8,29 USD/heure. La facturation démarre lors de la création d’un cluster et s’arrête lors de sa suppression. La facturation est effectuée au prorata des minutes écoulées. Par conséquent, vous devez toujours supprimer votre cluster lorsqu’il n’est plus utilisé. Utilisez la page Déploiements pour supprimer l’intégralité de la solution quand vous avez terminé.

Vue d’ensemble

Les établissements de prêts ont tout intérêt à s’équiper pour le traitement des données de prédiction des pertes sèches sur prêt. Le passage d’un prêt en perte sèche est le dernier recours dont dispose la banque pour un prêt en souffrance grave. En bénéficiant de données prévisionnelles, un gestionnaire de prêts peut proposer des avantages personnalisés, tels qu’un taux d'intérêt plus bas ou une période de remboursement plus longue, pour aider ses clients à continuer à rembourser leurs prêts et éviter ainsi qu’ils ne passent en pertes sèches. Pour obtenir ce type de données de prévision, les coopératives de crédit ou les banques élaborent généralement des jeux de données plus ou moins artisanaux en se basant sur les antécédents de paiement de leurs clients, et se contentent d’une simple analyse de régression statistique. Cette méthode est fortement sujette à l’erreur de compilation des données et n’est pas statistiquement sûre.

Ce modèle de solution illustre une solution de bout en bout pour exécuter des analyses prédictives sur des données de prêt et produire des scores de perte sèche. Un rapport PowerBI présente également l’analyse et la tendance des prêts de crédit et la prédiction de perte sèche.

Perspective commerciale

Cette prédiction de perte sèche se base sur une simulation de données d’historique de prêt pour prédire la probabilité de perte sèche dans un futur proche (les trois prochains mois). Plus le score est élevé, plus le risque est élevé, plus il est probable que le prêt soit une perte sèche à l’avenir.

Grâce aux données analytiques, les gestionnaires de prêts pourront également consulter les tendances et l’analyse des pertes sèches par succursale. Les caractéristiques des prêts à risque élevé de perte sèche aideront les responsables des prêts à établir des business plans pour leurs offres de prêts selon des zones géographiques précises.

Power BI présente également des résumés visuels des remboursements de prêts et des prédictions de pertes sèches (illustrés ici avec des données simulées). Vous pouvez essayer ce tableau de bord en cliquant sur le bouton « Essayer maintenant » à droite.

Perspective du scientifique des données

Ce modèle de solution vous guide tout au long du processus de développement d’analyses prédictives à l’aide d’un ensemble de données d’historique de prêt simulé afin de prédire le risque de pertes sèches. Les données contiennent des informations telles que les données démographiques du bénéficiaire du prêt, le montant du prêt, la durée contractuelle du prêt et l’historique des remboursements du prêt. Le modèle de solution comprend également un ensemble de scripts R qui effectuent le traitement des données, l’ingénierie des caractéristiques et plusieurs algorithmes pour l’apprentissage des données, puis sélectionnent le meilleur modèle pour évaluer les données afin de produire un score de probabilité pour chaque prêt.

Les scientifiques des données qui testent cette solution peuvent utiliser le code R fourni à partir de l’édition open source basée sur un navigateur du serveur RStudio qui s’exécute sur le nœud de périphérie du cluster ML Services sur Azure HDInsight. En définissant le contexte de calcul, l’utilisateur peut décider de l’emplacement où le calcul sera effectué : localement sur le nœud de périphérie, ou distribué entre les nœuds du cluster Spark. Tout le code R se trouve également dans le dépôt GitHub public. En avant !

Composants

  • Azure HDInsight : Azure HDInsight est un service cloud d’analyse managé, complet et open source pour les entreprises. Vous pouvez utiliser les infrastructures open source telles que Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R et bien plus encore.
  • Power BI fournit un tableau de bord interactif avec une visualisation qui utilise des données stockées dans SQL Server pour déterminer des décisions sur les prédictions.

Voir aussi