Predicción de préstamos incobrables con clústeres de Azure HDInsight Spark

R Server for HDInsight
Power BI

Idea de solución Solution Idea

Si desea que ampliemos este artículo con más información, detalles de la implementación, guía de precios o ejemplos de código, háganoslo saber en GitHub Feedback (Comentarios de GitHub).If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Un préstamo incobrable es aquel en el que un acreedor (normalmente una institución de préstamos) declara que es improbable que se cobre una cantidad de la deuda, normalmente cuando el deudor muestra una alta morosidad en el reembolso del préstamo.A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. Dado que una alta incobrabilidad tiene un impacto negativo en las finanzas al cierre del ejercicio de las instituciones de préstamo, estas a menudo supervisan el riesgo de incobrabilidad de los préstamos, para evitar que alcancen ese estado.Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Con ML Services en Azure HDInsight, una institución de préstamo puede usar el análisis predictivo de aprendizaje automático para predecir la probabilidad de que los préstamos pasen a ser impagos y ejecutar un informe sobre el resultado del análisis almacenado en las tablas de HDFS y Hive.Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.

ArchitectureArchitecture

Diagrama de la arquitectura

Descargue un SVG de esta arquitectura.Download an SVG of this architecture.

Data FlowData Flow

  1. Cree algunos datos y defina orígenes de datos para la predicción de ML.Create some data and define data sources for the ML prediction
  2. Ejecute una regresión logística en los datos mediante el contexto de proceso local (o Spark) para predecir la variable de impago de préstamo.Run a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Use el conector de Spark de Azure HDInsights para conectarse a la tabla.Use Azure HDInsights spark connector to connect to the table
  4. Use Power BI para interpretar estos datos y crear nuevas visualizaciones.Use Power BI to interpret this data and create new visualizations
  5. (Opcional) Implemente el modelo como un servicio web que se puede consumir en dispositivos populares como PC y móviles.(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile

DescripciónDescription

Esta solución creará un clúster de tipo ML Services en Azure HDInsight.This solution will create a cluster of type ML Services on Azure HDInsight. Este clúster contendrá 2 nodos principales, 2 nodos de trabajo y 1 nodo perimetral con 32 núcleos en total.This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. El costo aproximado de este clúster de HDInsight Spark es de 8,29 USD por hora.The approximate cost for this HDInsight Spark cluster is $8.29/hour. La facturación se inicia una vez creado un clúster y solo se detiene cuando se elimina.Billing starts once a cluster is created and stops when the cluster is deleted. Se facturan por minuto realizando una prorrata, por lo que siempre debe eliminar aquellos que ya no se estén utilizando.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Cuando haya terminado, use la página Implementaciones para eliminar toda la solución.Use the Deployments page to delete the entire solution once you are done.

Información generalOverview

Las instituciones de préstamo disfrutan de varias ventajas para equiparse con los datos de predicción de préstamos incobrables.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Declarar un préstamo como impago es el último recurso del banco ante una situación de morosidad grave, con los datos de predicción a mano, el responsable de los préstamos podría ofrecer incentivos personalizados como una tasa de interés menor o un período de devolución más prolongado para ayudar a los clientes a continuar pagando el préstamo y así evitar caer en un impago.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. Para obtener este tipo de datos de predicción, a menudo las cooperativas de crédito o los bancos preparan los datos a mano según el historial de pagos de los clientes y realizan un análisis de regresión estadística simple.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Este método está sujeto a muchos errores de compilación de los datos y no es estadísticamente significativo.This method is highly subject to data compilation error and not statistically sound.

Esta plantilla de solución muestra una solución completa para ejecutar análisis predictivos en los datos de los préstamos y producir una puntuación de la probabilidad de impagos.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. Un informe de Power BI también le guiará por el análisis y la tendencia de los préstamos de crédito y la predicción de la probabilidad de impago.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

Perspectiva empresarialBusiness Perspective

Esta predicción de impago de préstamos usa datos de historial de préstamos simulados para predecir la probabilidad de impago en el futuro inmediato (en los próximos tres meses).This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Cuanto mayor sea la puntuación, mayor será la probabilidad de que no se pague el préstamo en el futuro.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Con los datos de análisis, al administrador de préstamos también se le presentan las tendencias y el análisis de los préstamos impagados por ubicación de las sucursales.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. Las características de los préstamos de alto riesgo de impago ayudarán a los administradores de préstamos a realizar el plan de negocio para la oferta de préstamos en esa zona geográfica específica.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

Microsoft R Server en clústeres de HDInsight Spark ofrece funcionalidades de aprendizaje automático distribuidas y escalables para macrodatos, gracias a la capacidad combinada de R Server y Apache Spark.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. Esta solución muestra cómo desarrollar modelos de aprendizaje automático para predecir impagos de préstamos (incluido el procesamiento de datos, la ingeniería de características, el entrenamiento y la evaluación de modelos), implementar los modelos como un servicio web (en el nodo perimetral) y consumir el servicio web de forma remota con ML Services en Azure HDInsight.This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. Las predicciones finales se guardan en una tabla de Hive que se visualiza en Power BI.The final predictions is saved to a Hive table which could be visualized in Power BI.

Power BI también presenta resúmenes visuales de la predicción de pagos e impagos del préstamo (que se muestran aquí con datos simulados).Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). Para probar este panel, haga clic en el botón "Prueba disponible" de la derecha.You can try out this dashboard by clicking the "Try it Now" button to the right.

Perspectiva del científico de datosData Scientist Perspective

Esta plantilla de solución le guía por el proceso general sobre cómo desarrollar análisis de predicción mediante un conjunto de datos de historial de préstamos simulados para predecir el riesgo de impago.This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. Los datos contienen información como los datos demográficos del titular del préstamo, el importe del préstamo, la duración del préstamo contractual y el historial de pago.The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. La plantilla de solución también incluye un conjunto de scripts de R que realizan procesamiento de datos, ingeniería de características y distintos algoritmos para entrenar los datos y, por último, seleccionan el modelo de mejor rendimiento para puntuar los datos con el fin de generar una puntuación de probabilidad para cada préstamo.The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. La solución también incluye scripts para implementar el modelo como servicio web (en el nodo perimetral) y consumir el servicio web de forma remota con Microsoft R Server en clústeres de Azure HDInsight Spark.The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Los científicos de datos que prueban esta solución pueden trabajar con el código de R proporcionado desde la edición de código abierto basada en explorador del servidor de RStudio que se ejecuta en el nodo perimetral de ML Services en el clúster de Azure HDInsight.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. Al establecer el contexto de proceso, el usuario puede decidir dónde se realizará el cálculo: localmente en el nodo perimetral o distribuido en los nodos del clúster de Spark.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. El código de R también se puede encontrar en el repositorio público de GitHub.All the R code can also be found in public GitHub repository. ¡Que te diviertas!Have fun!

ComponentesComponents

  • Azure HDInsights: Azure HDInsight es un servicio de análisis, de código abierto, espectro completo y totalmente administrado en la nube para empresas.Azure HDInsights: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Puede usar plataformas de código abierto como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, etc.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • Power BI proporciona un panel interactivo con visualización que utiliza los datos almacenados en SQL Server para tomar decisiones sobre las predicciones.Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

Consulte tambiénSee Also