使用 Azure HDInsight Spark 叢集的貸款計費預測

HDInsight
Power BI

解決方案構想

如果您想要瞭解如何使用詳細資訊來擴充本文,例如可能的使用案例、替代服務、實行考慮或定價指引,請讓我們知道 GitHub 的意見反應!

向下收費是債權人所宣告的貸款, (通常是借貸機構) 不太可能會收集債務量,通常是在 debtor 嚴重滯納貸款償還時。 由於高壞帳對借貸機構的年度財務有負面影響,因此,借貸機構通常會密切地監視貸款壞帳風險,以防止貸款的計費。 使用 Azure HDInsight 上的 ML 服務,借貸機構可以使用機器學習預測性分析來預測貸款的機率,並針對儲存在 HDFS 和 hive 資料表中的分析結果執行報告。

架構

架構圖

下載此架構的 SVG

資料流程

  1. 建立一些資料並定義 ML 預測的資料來源
  2. 使用本機計算 (或 spark) 內容來執行資料的羅吉斯回歸,以預測按變數的貸款費用
  3. 使用 Azure HDInsights spark 連接器連接到資料表
  4. 使用 Power BI 來解讀此資料並建立新的視覺效果
  5. (選擇性) 將模型部署為 web 服務,以便在電腦和行動裝置等熱門裝置上使用

Description

此解決方案會在 Azure HDInsight 上建立 ML 服務類型的叢集。 此叢集將包含2個前端節點、2個背景工作節點和1個邊緣節點,總共32個核心。 此 HDInsight Spark 叢集的大約成本為每小時 $ 8.29。 一旦建立叢集之後,就會開始計費,並在刪除叢集時停止計費。 計費是以每分鐘按比例計算,因此不再使用時,請一律刪除您的叢集。 完成之後,請使用 [部署] 頁面來刪除整個方案。

概觀

貸款機構有許多優點可提供貸款壞帳預測資料。 向帳單收費是銀行在嚴重滯納貸款上的最後手段,其中有預測資料,貸款專員可以提供個人化的獎勵,例如較低的利率或較長的償還期間,以協助客戶繼續進行貸款款項,從而防止計費的貸款。 若要取得這種類型的預測資料,通常會根據客戶過去的付款記錄來手動製作資料,並執行簡單的統計迴歸分析。 這個方法非常受限於資料編譯錯誤,而不是統計音效。

此解決方案範本會示範端對端的解決方案,以執行貸款資料的預測性分析,並產生壞帳機率的評分。 PowerBI 報表也會逐步解說點數貸款的分析和趨勢,以及壞帳機率的預測。

商務觀點

這項貸款壞帳預測會使用模擬的貸款歷程記錄資料,在未來三個月) 的未來 (預測貸款壞帳的機率。 分數愈高,則會在未來收取貸款的機率。

流量分析資料時,貸款經理也會看到依分支位置壞帳貸款的趨勢和分析。 高壞帳風險貸款的特性可協助貸款經理在該特定地理區域中制定貸款供應專案的商務計畫。

Power BI 也會提供模擬資料) 的貸款款項和壞帳預測 (的視覺化摘要。 您可以按一下右側的 [立即試用] 按鈕,試用此儀表板。

資料科學家的觀點

此解決方案範本會逐步解說如何使用一組模擬的貸款記錄資料來開發預測分析,以預測貸款壞帳風險的端對端程式。 資料包含貸款持有人人口統計資料、貸款金額、契約貸款持續時間和貸款付款記錄等資訊。 解決方案範本也包含一組 R 腳本,可執行資料處理、特徵工程和數種不同的演算法來定型資料,最後選取最佳的效能模型來對資料進行評分,以產生每個貸款的機率分數。

正在測試此解決方案的資料科學家,可以使用以瀏覽器為基礎的開放原始碼版本 RStudio 伺服器中所提供的 R 程式碼,該伺服器是在 Azure HDInsight 叢集上 ML 服務的邊緣節點上執行。 藉由 設定計算內容 ,使用者可以決定執行計算的位置:在邊緣節點上的本機,或分散到 Spark 叢集中的節點。 您也可以在公用 GitHub 存放庫中找到所有 R 程式碼。 祝您順利!

單元

  • Azure HDInsight: Azure HDInsight 是雲端中適用于企業的受控、全方位的開放原始碼分析服務。 您可以使用開放原始碼架構,例如 Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Storm、R 等等。
  • Power BI提供具有視覺效果的互動式儀表板,以使用儲存在 SQL Server 中的資料來推動預測的決策。

另請參閱