模型貸款信用風險和違約機率

Azure Machine Learning
Azure Synapse Analytics
Azure App Service
Azure Data Lake 儲存體
Power BI

本文說明使用 Azure 機器學習 來預測貸款申請人的拖欠和違約機率的架構。 模型的預測是以申請人的會計行為為基礎。 此模型會使用一組龐大的數據點來分類申請人,併為每個申請人提供資格分數。

Apache®、Spark 和火焰標誌是 美國 和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 Apache Software Foundation 不會隱含使用這些標記。

架構

此圖顯示預測信用風險的架構。

下載此架構的 Visio 檔案

資料流程

下列資料流會對應至上圖:

  1. 儲存體:數據會儲存在資料庫中,例如結構化的 Azure Synapse Analytics 集區。 舊版 SQL 資料庫可以整合到系統中。 半結構化和非結構化數據可以載入至數據湖。

  2. 擷取和預先處理:Azure Synapse Analytics 處理管線和 ETL 處理可以透過內建連接器連線到儲存在 Azure 或第三方來源中的數據。 Azure Synapse Analytics 支持多種使用 SQL、Spark、Azure 數據總管和 Power BI 的分析方法。 您也可以針對數據管線使用現有的 Azure Data Factory 協調流程。

  3. 處理:Azure 機器學習 可用來開發和管理機器學習模型。

    1. 初始處理:在這個階段,會處理原始數據,以建立將定型機器學習模型的策劃數據集。 一般作業包括數據類型格式設定、遺漏值的插補、特徵工程、特徵選取和維度縮減。

    2. 定型:在定型階段,Azure 機器學習 會使用已處理的數據集來定型信用風險模型,並選取最佳模型。

    • 模型定型:您可以使用一系列機器學習模型,包括傳統機器學習和深度學習模型。 您可以使用超參數微調來優化模型效能。

    • 模型評估:Azure 機器學習 評估每個定型模型的效能,讓您可以選取最適合的部署模型。

    • 模型註冊:您註冊在 Azure 機器學習 中表現最佳的模型。 此步驟讓模型可供部署使用。

    c. 負責任 AI:負責任 AI 是以安全、可信任和道德的方式開發、評估及部署 AI 系統的方法。 由於此模型會推斷貸款要求的核准或拒絕決策,因此您必須實作負責任 AI 的原則。

    • 公平性計量會 評估不公平行為的影響,並啟用風險降低策略。 敏感性特徵和屬性會識別在數據集和數據世代(子集)中。 如需詳細資訊,請參閱 模型效能和公平性

    • 可解譯性 是了解機器學習模型行為的衡量標準。 負責任 AI 的這個元件會產生人類可理解的模型預測描述。 如需詳細資訊,請參閱 模型可解譯性

  4. 實時機器學習部署:當需要立即檢閱要求以供核准時,您必須使用即時模型推斷。

    1. 受控機器學習在線端點。 若要進行即時評分,您必須選擇適當的計算目標。
    2. 在線貸款要求會根據申請人窗體或貸款申請的輸入,使用即時評分。
    3. 用於模型評分的決策和輸入會儲存在永續性記憶體中,並可擷取以供日後參考。
  5. 批次機器學習部署:針對離線貸款處理,模型會排定定期觸發。

    1. 受控批次端點。 系統會排程批次推斷,並建立結果數據集。 決定是根據申請人的信用。
    2. 批處理的結果集會保存在資料庫或 Azure Synapse Analytics 數據倉儲中。
  6. 與申請人活動相關數據的介面:申請人輸入的詳細數據、內部信用配置檔,以及模型的決定都會暫存並儲存在適當的數據服務中。 這些詳細數據會用於決策引擎以取得未來的評分,因此會記錄這些詳細數據。

    • 儲存體:信用處理的所有詳細數據都會保留在持續性記憶體中。
    • 使用者介面:核准或拒絕決定會呈現給申請人。
  7. 報告:持續向主管和領導人員呈現有關處理和核准或拒絕結果數目的實時見解。 報告的範例包括已核准金額的近乎實時報告、所建立的貸款組合,以及模型效能。

元件

  • Azure Blob 儲存體 為非結構化數據提供可調整的物件記憶體。 它已針對儲存二進位檔、活動記錄和不符合特定格式的檔案進行優化。
  • Azure Data Lake 儲存體 是在 Azure 上建立符合成本效益之 Data Lake 的記憶體基礎。 它提供 Blob 記憶體的階層式資料夾結構,以及增強的效能、管理和安全性。 它服務數 PB 的資訊,同時維持數百 GB 的輸送量。
  • Azure Synapse Analytics 是一項分析服務,可將 SQL 和 Spark 技術的最佳功能與 Azure Synapse 數據總管和管線的統一用戶體驗整合在一起。 它與 Power BI、Azure Cosmos DB 和 Azure 機器學習 整合。 此服務同時支援專用和無伺服器資源模型,以及在這些模型之間切換的能力。
  • Azure SQL 資料庫 是專為雲端建置的最新、完全受控關係資料庫。
  • Azure 機器學習 是一項雲端服務,可用來管理機器學習專案生命週期。 它提供用於數據探索、模型建置和管理及部署的整合式環境,並支援機器學習的程式碼優先和低程式碼/無程式碼方法。
  • Power BI 是一種視覺效果工具,可讓您輕鬆地與 Azure 資源整合。
  • Azure App 服務 可讓您建置及裝載 Web 應用程式、行動後端和 RESTful API,而不需要管理基礎結構。 支持的語言包括 .NET、.NET Core、Java、Ruby、Node.js、PHP 和 Python。

替代項目

您可以使用 Azure Databricks來開發、部署及管理機器學習模型和分析工作負載。 此服務為模型開發提供統一的環境。

案例詳細資料

金融業的組織需要預測要求信用的個人或企業信用風險。 此模型會評估貸款申請人的拖欠和違約機率。

信用風險預測涉及深入分析人口行為,並將客戶群分類成以會計責任為基礎的區隔。 其他變數包括市場因素和經濟條件,對結果有重大影響。

挑戰。 輸入數據報含數千萬個客戶配置檔,以及客戶信用行為和消費習慣的相關數據,這些習慣是根據來自不同系統的數十億筆記錄,例如內部客戶活動系統。 有關經濟狀況和國家/地區市場分析的第三方數據可能來自需要載入和維護數百 GB 檔案的每月或每季快照集。 需要有關申請人或客戶數據半結構化數據列的信用局資訊,以及這些數據集與品質檢查之間的交叉聯結,以驗證數據的完整性。

數據通常由信用局客戶資訊的寬數據行數據表以及市場分析所組成。 客戶活動是由可能未結構化動態版面配置的記錄所組成。 數據也可從客戶服務筆記和申請人互動表單中以自由格式文字取得。

處理這些大量數據並確保結果目前需要簡化的處理。 您需要低延遲的記憶體和擷取程式。 數據基礎結構應該能夠調整以支援不同的數據源,並提供管理和保護數據周邊的能力。 機器學習平臺需要支援許多模型的複雜分析,這些模型經過許多母體區段的定型、測試及驗證。

數據敏感度和隱私權。 此模型的數據處理涉及個人資料和人口統計詳細數據。 您必須避免母體擴展的分析。 必須限制所有個人資料的直接可見度。 個人資料的範例包括帳戶號碼、信用卡詳細數據、社會安全號碼、名稱、位址和郵遞區號。

信用卡和銀行帳戶號碼必須一律模糊化。 某些數據元素必須遮罩且一律加密,因此無法存取基礎資訊,但可供分析。

數據必須在待用、傳輸中,以及透過安全記憶體保護區進行處理期間進行加密。 數據項的存取會記錄在監視解決方案中。 您必須使用適當的 CI/CD 管線來設定生產系統,且核准會觸發模型部署和程式。 記錄和工作流程的稽核應該會針對任何合規性需求提供與數據的互動。

處理。 此模型需要高計算能力,以進行分析、內容化,以及模型定型和部署。 模型評分會根據隨機樣本進行驗證,以確保信用決策不包含任何種族、性別、種族或地理位置偏差。 決策模型必須記載並封存以供日後參考。 決策結果所涉及的每個因素都會儲存。

數據處理需要高 CPU 使用量。 它包含 DB 和 JSON 格式結構化數據的 SQL 處理、數據框架的 Spark 處理,或以各種檔案格式對數 TB 資訊進行巨量數據分析。 數據 ELT/ETL 作業會根據最新數據的值,定期或即時排程或觸發。

合規性和法規架構。 必須記錄貸款處理的每個詳細數據,包括提交的應用程式、模型評分中使用的功能,以及模型的結果集。 模型定型資訊、用於定型的數據,以及定型結果應註冊,以供日後參考和稽核和合規性要求使用。

Batch 與即時評分。 某些工作是主動式的,而且可以當作批次作業處理,例如預先核准的餘額轉移。 某些要求,例如在線信用額度增加,需要即時核准。

必須向申請人提供在線貸款申請狀態的即時存取權。 貸款發行金融機構持續監控信用模式的績效,需要瞭解貸款審批狀態、核准貸款數量、發放金額、新貸款來源品質等計量。

負責 AI

「負責任 AI」儀錶板為多個工具提供單一介面,可協助您實作負責任 AI。 負責任 AI 標準是以六個原則為基礎:

此圖顯示負責任 AI 的六個原則。

Azure 機器學習 中的公平性和包容性。 負責任 AI 儀錶板的這個元件可藉由避免配置危害和服務品質的危害,協助您評估不公平的行為。 您可以使用它來評估性別、年齡、種族和其他特性所定義之敏感性群體之間的公平性。 在評估期間,公平性會透過差異計量來量化。 您應該在使用同位條件約束的 Fairlearn 開放原始碼套件中實作風險降低演算法。

Azure 機器學習 中的可靠性和安全性。 負責任 AI 的錯誤分析元件可協助您:

  • 深入瞭解模型的失敗分佈方式。
  • 識別錯誤率高於整體基準檢驗的數據世代。

Azure 機器學習 中的透明度。 透明度的關鍵部分是瞭解功能如何影響機器學習模型。

  • 模型可解譯性 可協助您了解影響模型的行為。 其會產生人類可理解的模型預測描述。 這項瞭解有助於確保您可以信任模型,並協助您進行偵錯和改善。 InterpretML 可協助您瞭解玻璃盒模型的結構,或黑箱深度類神經網路模型中特徵之間的關聯性。
  • 反事實假設 可協助您了解和偵錯機器學習模型,以瞭解如何響應特徵變更和干擾。

Azure 機器學習 中的隱私權和安全性。 機器學習系統管理員必須建立安全設定,以開發和管理模型的部署。 安全性和控管功能 可協助您遵守組織的安全策略。 其他工具可協助您評估及保護模型。

Azure 機器學習 中的責任。 機器學習作業 (MLOps) 是以提升 AI 工作流程效率的 DevOps 原則和做法為基礎。 Azure 機器學習 可協助您實作 MLOps 功能:

  • 註冊、封裝和部署模型
  • 取得模型中變更的通知和警示
  • 擷取端對端生命週期的治理數據
  • 監視應用程式是否有操作問題

下圖說明 Azure 機器學習 的 MLOps 功能:

描述 Azure 機器學習 MLOps 功能的圖表。

潛在使用案例

您可以將此解決方案套用至下列案例:

  • 財務:取得客戶的財務分析,或針對目標行銷活動的客戶進行交叉銷售分析。
  • 醫療保健:使用患者資訊作為建議治療供應項目的輸入。
  • 酒店:建立客戶配置檔,以建議酒店、航班、游輪套餐和會員的供應專案。

考量

這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework (部分機器翻譯)。

安全性

安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱安全性要素的概觀

Azure 解決方案提供深度防禦和 零信任 方法。

請考慮在此架構中實作下列安全性功能:

成本最佳化

成本優化是減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化要素的概觀

若要估計實作此解決方案的成本,請使用 Azure 定價計算機

也請考慮下列資源:

卓越營運

卓越營運涵蓋部署應用程式並使其持續在生產環境中執行的作業流程。 如需詳細資訊,請參閱卓越營運要素的概觀 (部分機器翻譯)。

機器學習解決方案必須可調整並標準化,以方便管理和維護。 請確定您的解決方案支持持續推斷,並重新定型週期和自動重新部署模型。

如需詳細資訊,請參閱 Azure MLOps (v2) 解決方案加速器

效能效益

效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 如需詳細資訊,請參閱效能效率要件概觀

  • 如需設計可調整解決方案的詳細資訊,請參閱 效能效率檢查清單
  • 如需受管制產業的相關信息,請參閱 調整受管制產業中的 AI 和機器學習計畫。
  • 使用 SQL、Spark 或無伺服器 SQL 集區來管理 Azure Synapse Analytics 環境。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

其他參與者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步