您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

贷款-通过 Azure HDInsight Spark 群集进行预测

HDInsight
Power BI

解决方案理念

如果想了解详细信息(例如潜在用例、替代服务、实现注意事项或定价指南)来扩展本文,请通过反馈GitHub告知我们!

已付清的贷款是指由 (款项声明的贷款,这通常是一种借贷机构) 不可能收集的债务,这通常是由于债务人的贷款收回受到了严重拖欠。 由于高冲销对借贷机构的年终金融产生负面影响,借件机构通常会密切监视贷款冲销风险,以防止贷款的收费。 使用 Azure HDInsight 上 ML 服务,贷款机构可以使用机器学习预测分析来预测贷款中断的可能性,并对在 HDFS 和 hive 表中存储的分析结果运行报告。

体系结构

体系结构关系图

下载此体系结构的 SVG

数据流

  1. 为 ML 预测创建一些数据并定义数据源
  2. 使用本地计算 (或 spark) 上下文对数据运行逻辑回归,以预测贷款计费变量
  3. 使用 Azure HDInsights spark 连接器连接到表
  4. 使用 Power BI 解释此数据和创建新的可视化效果
  5. (可选) 将该模型部署为 web 服务,该服务可在 PC 和移动设备等常用设备上使用

说明

此解决方案将在 Azure HDInsight 上创建一个类型 ML 服务的群集。 此群集包含2头节点、2个工作节点和1个边缘节点,共32个核心。 此 HDInsight Spark 群集的估计成本是 $ 8.29/小时。 创建群集后开始计费,删除群集后停止计费。 HDInsight 群集按分钟收费,因此不再需要使用群集时,应将其删除。 完成后,使用 "部署" 页删除整个解决方案。

概述

贷款机构为贷款冲销预测数据提供了多项好处。 对贷款进行的充电是银行在拖欠贷款时所做的最后一种手段,贷款专员可以提供更高的奖励,如较低的利率或更长的收回时间,以帮助客户保持贷款款项,从而防止贷款。 若要访问此类型的预测数据,通常,信用联合或银行会根据客户过去的付款历史记录手动信用社数据,并执行简单的统计回归分析。 此方法非常受数据编译错误的限制,而不是经过统计的声音。

此解决方案模板演示了一种端到端的解决方案,该解决方案针对贷款数据运行预测分析并在冲销概率上生成评分。 PowerBI 报表还会演练贷款贷款的分析和趋势,并预测冲销概率。

业务观点

这一贷款冲销预测使用模拟贷款历史数据来预测未来三个月内的贷款冲销在未来三) 个月 (的概率。 分数越高,贷款的概率就越高,就越好。

使用分析数据时,贷款经理还向冲销贷款的趋势和分析提供分支位置。 高冲销风险贷款的特征将帮助贷款经理在该特定地理区域中为贷款提供业务计划。

Power BI 还提供了 (的贷款付款和冲销预测的直观摘要,) 模拟数据。 可以通过单击右侧的 "立即试用" 按钮来试用此仪表板。

数据科学家透视

此解决方案模板介绍了如何使用一组模拟贷款历史记录数据开发预测分析以预测贷款冲销风险的端到端过程。 数据包含贷款持有人人口统计数据、贷款量、合同贷款持续时间和贷款支付历史记录等信息。 解决方案模板还包括一组 R 脚本,这些脚本执行数据处理、功能设计和多种不同的算法来定型数据,最后选择最佳性能模型来对数据进行评分,以产生每个贷款的概率分数。

正在测试此解决方案的数据科学家可以使用在 Azure HDInsight 群集上 ML 服务的边缘节点上运行的基于浏览器的开源版 RStudio Server 中提供的 R 代码。 通过 设置计算上下文 ,用户可以决定执行计算的位置:在边缘节点上本地执行,或分布在 Spark 群集的节点上。 所有 R 代码还可以在公共 GitHub 存储库中找到。 玩得愉快!

组件

  • Azure hdinsight: azure hdinsight 是适用于企业的云中托管的、全系列开源分析服务。 可以使用开源框架,例如 Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Storm、R 等等。
  • Power BI提供了一个交互式仪表板,其中包含可视化效果,使用存储在 SQL Server 中的数据来推动预测的决策。

另请参阅