Previsão de Cobrança de Empréstimos com Clusters de Faíscas Azure HDInsight

R Server para HDInsight
Power BI

Ideia de solução Solution Idea

Se quiser ver-nos expandir este artigo com mais informações, detalhes de implementação, orientação de preços ou exemplos de código, informe-nos com o Feedback do GitHub!If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Um empréstimo cobrado fora é um empréstimo que é declarado por um credor (geralmente uma instituição de empréstimo) que é pouco provável que um montante de dívida seja cobrado, geralmente quando o reembolso do empréstimo é severamente delinquente pelo devedor.A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. Dado que o elevado encargo tem um impacto negativo nas finanças do final do ano das instituições de crédito, as instituições de crédito monitorizam frequentemente o risco de cobrança de empréstimos de forma muito próxima para impedir que os empréstimos sejam cobrados.Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Utilizando serviços ML em Azure HDInsight, uma instituição de empréstimo pode usar a análise preditiva de machine learning para prever a probabilidade de os empréstimos serem cobrados e executar um relatório sobre o resultado analítico armazenado em HDFS e mesas de colmeia.Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.

ArquiteturaArchitecture

Diagrama da arquitetura

Faça o download de um SVG desta arquitetura.Download an SVG of this architecture.

Fluxo de dadosData flow

  1. Criar alguns dados e definir fontes de dados para a previsão de MLCreate some data and define data sources for the ML prediction
  2. Executar uma regressão logística sobre os dados usando o contexto de computação local (ou faísca) para prever a taxa de empréstimo fora da variávelRun a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Use o conector de faísca Azure HDInsights para ligar à tabelaUse Azure HDInsights spark connector to connect to the table
  4. Use o Power BI para interpretar estes dados e criar novas visualizaçõesUse Power BI to interpret this data and create new visualizations
  5. (Opcional) Implemente o modelo como serviço web que pode ser consumido em dispositivos populares como PC, e mobile(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile

DescriptionDescription

Esta solução criará um cluster de serviços ML tipo no Azure HDInsight.This solution will create a cluster of type ML Services on Azure HDInsight. Este cluster conterá 2 nós de cabeça, 2 nós de trabalhadores e 1 nó de borda com um total de 32 núcleos.This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. O custo aproximado deste cluster HDInsight Spark é $8.29/hora.The approximate cost for this HDInsight Spark cluster is $8.29/hour. A faturação começa assim que um cluster é criado e para quando o cluster é eliminado.Billing starts once a cluster is created and stops when the cluster is deleted. A faturação é rateada por minuto, pelo que deve sempre eliminar o cluster quando deixar de ser utilizado.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Utilize a página Implementações para eliminar toda a solução uma vez terminada.Use the Deployments page to delete the entire solution once you are done.

Descrição GeralOverview

Existem múltiplos benefícios para as instituições de empréstimo para equipar com dados de previsão de cobrança de empréstimos.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Cobrar um empréstimo é o último recurso que o banco fará num empréstimo severamente delinquente, com os dados de previsão em mãos, o responsável pelo empréstimo poderia oferecer incentivos personalizados, como uma taxa de juro mais baixa ou um período de reembolso mais longo para ajudar os clientes a continuarem a fazer pagamentos de empréstimos e, assim, impedir o empréstimo de serem cobrados.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. Para chegar a este tipo de dados de previsão, muitas vezes as uniões de crédito ou os bancos manualmente artesanal os dados com base no histórico de pagamentos passado dos clientes e realizou uma simples análise de regressão estatística.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Este método está altamente sujeito a erro de compilação de dados e não estatisticamente sólido.This method is highly subject to data compilation error and not statistically sound.

Este modelo de solução demonstra uma solução final para executar análises preditivas em dados de empréstimos e produzir pontuação na probabilidade de chargeoff.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. Um relatório do PowerBI também passará pela análise e tendência dos empréstimos de crédito e pela previsão da probabilidade de cobrança.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

Perspetiva de negócioBusiness perspective

Esta previsão de cobrança de empréstimos usa um dado de histórico de empréstimo simulado para prever a probabilidade de cobrança de empréstimos no futuro imediato (próximos três meses).This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Quanto maior for a pontuação, maior é a probabilidade de o empréstimo ser cobrado no futuro.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Com os dados de análise, o gestor de empréstimos é também apresentado com as tendências e análises dos empréstimos de cobrança por sucursais.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. As características dos empréstimos de risco de elevado custo ajudarão os gestores de empréstimos a fazer um plano de negócios para a oferta de empréstimos nessa área geográfica específica.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

O Microsoft R Server em clusters HDInsight Spark fornece capacidades de aprendizagem automática distribuídas e escaláveis para big data, utilizando a potência combinada de R Server e Apache Spark.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. Esta solução demonstra como desenvolver modelos de machine learning para prever o custo do empréstimo (incluindo processamento de dados, engenharia de recursos, formação e avaliação de modelos), implementar os modelos como um serviço web (no nó de borda) e consumir o serviço web remotamente com os Serviços ML em Azure HDInsight.This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. As previsões finais são guardadas para uma tabela de Colmeia que pode ser visualizada no Power BI.The final predictions is saved to a Hive table which could be visualized in Power BI.

O Power BI também apresenta resumos visuais dos pagamentos do empréstimo e previsões de cobrança (mostradas aqui com dados simulados).Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). Pode experimentar este painel clicando no botão "Experimente agora" à direita.You can try out this dashboard by clicking the "Try it Now" button to the right.

Perspetiva de cientista de dadosData scientist perspective

Este modelo de solução percorre o processo de ponta a ponta de como desenvolver a análise de previsão usando um conjunto de dados de histórico de empréstimos simulados para prever o risco de cobrança de empréstimos.This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. Os dados contêm informações como dados demográficos do titular do empréstimo, montante do empréstimo, duração do empréstimo contratual e histórico de pagamento de empréstimos.The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. O modelo de solução também inclui um conjunto de scripts R que realizam o processamento de dados, engenharia de recursos e vários algoritmos diferentes para treinar os dados, e finalmente seleciona o melhor modelo performante para marcar os dados para produzir pontuação de probabilidade para cada empréstimo.The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. A solução também inclui scripts para implementar o modelo como um serviço web (no nó de borda) e consumir o serviço web remotamente com o Microsoft R Server em clusters Azure HDInsight Spark.The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Os cientistas de dados que estão a testar esta solução podem trabalhar com o código R fornecido a partir do Open Source Edition do RStudio Server baseado no navegador que funciona no Nó de Borda dos Serviços ML no cluster Azure HDInsight.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. Ao definir o contexto computacional, o utilizador pode decidir onde o cálculo será realizado localmente no nó de borda, ou distribuído pelos nós do cluster Spark.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. Todo o código R também pode ser encontrado no repositório público do GitHub.All the R code can also be found in public GitHub repository. Divirta-se!Have fun!

ComponentesComponents

  • Azure HDInsight: Azure HDInsight é um serviço de análise gerido, de espectro completo e de código aberto na nuvem para empresas.Azure HDInsight: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Você pode usar quadros de código aberto como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, e muito mais.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • O Power BI fornece um dashboard interativo com visualização que utiliza dados armazenados no SQL Server para impulsionar decisões sobre as previsões.Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

Ver tambémSee also