教學課程 2:定型信用風險模型 - Machine Learning Studio (傳統)

適用於:這是核取標記,表示本文適用於 Machine Learning 工作室 (傳統)。Machine Learning 工作室 (傳統)這是 X,表示本文不適用於 Azure Machine Learning。Azure Machine Learning

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

在本教學課程中,您將進一步了解開發預測性分析解決方案的程序。 您將在 Machine Learning Studio (傳統) 中建立簡單的模型。 然後,您會將模型部署為 Machine Learning Web 服務。 這個已部署的模型可使用新資料進行預測。 本教學課程是三部分教學課程系列的第二部分

假設您必須根據某個人在信用申請書上提供的資訊預測其信用風險。

信用風險評估是一個複雜的問題,但本教學課程將稍微加以簡化。 您將使用其作為範例,了解如何使用 Machine Learning 工作室 (傳統) 建立預測性分析解決方案。 針對此解決方案,您將使用 Machine Learning 工作室 (傳統) 和 Machine Learning Web 服務。

在此三部分的教學課程中,您將從可公開取得的信用風險資料開始著手。 接著,您將開發並訓練預測模型。 最後,您會將模型部署為 Web 服務。

本教學課程的第一部分,您已建立 Machine Learning Studio (傳統) 工作區、上傳資料,以及建立實驗。

在教學課程的這個部分中,您將:

  • 訓練多個模型
  • 計分及評估模型

本教學課程的第三部分,您會將模型部署為 Web 服務。

必要條件

完成本教學課程的第一部分

訓練多個模型

使用 Machine Learning Studio (傳統) 來建立機器學習服務模型的優點之一,就是能夠在單一實驗中一次嘗試多個模型類型,並比較結果。 這類實驗可協助您針對問題找到最佳解決方案。

在我們於這個教學課程中開發的實驗內,您將會建立兩種不同的模型,然後比較其計分結果,以決定要用於最終實驗的演算法。

有各種不同的模型可供您選擇。 若要查看可用的模型,請在模組選擇區展開 [機器學習] 節點,然後展開 [初始化模型],再選擇其下方的節點。 基於本實驗的目的,您會選取二元支援向量機器 (SVM) 和二元促進式決策樹模組。

您將在此實驗中新增二元促進式決策樹模組和二元支援向量機器模組。

二元促進式決策樹

首先,設定促進式決策樹模型。

  1. 在模組選擇區中找到二元促進式決策樹模組,將其拖曳到畫布上。

  2. 找到訓練模型模組,將它拖曳到畫布上,然後將二元促進式決策樹模組的輸出連線到訓練模型模組的左側輸入連接埠。

    二元促進式決策樹模組會將一般模組初始化,而訓練模型則會使用訓練資料來訓練模型。

  3. 將左側執行 R 指令碼模組的左輸出連接到訓練模型模組的右側輸入連接埠 (您在本教學課程使用了「分割資料」模組左側所傳來的資料來進行訓練)。

    提示

    在這項實驗中,您不需要執行 R 指令碼模組的兩個輸入和一個輸出,因此可以讓它們保持未連結。

實驗的這部分目前看起來如下:

Training a model

現在您要告訴訓練模型模組,您要讓模型預測信用風險值。

  1. 選取 訓練模型 模組。 按一下 [屬性] 窗格中的 [啟動資料行選取器]。

  2. 在 [選取單一資料行] 對話方塊中,在 [可用的資料行] 下的 [搜尋] 欄位中輸入「信用風險」,然後選取下方的 [信用風險],按一下向右箭號按鈕 (>) 將 [信用風險] 移至 [選取的資料行]。

    為訓練模型模組選取信用風險資料行

  3. 按一下 [確定] \(打勾記號)。

二元支援向量機器

接下來,您要設定 SVM 模型。

首先,簡單說明一下 SVM。 強化的決策樹適合處理任何類型的特性。 不過,因為 SVM 模組會產生線性分類器,而它所產生的模型在所有數值特性都有相同的尺度時,將具有最佳檢定誤差。 為了將所有數值特徵轉換成相同的尺度,您要使用 Tanh 轉換 (搭配標準化資料模組)。 這會將我們的數字轉換到 [0,1] 範圍內。 SVM 模組會將字串特徵轉換為類別特性,再轉換為二進位 0/1 特徵,因此您無須手動轉換字串特徵。 此外,您不想要轉換 [信用風險] 資料行 (資料行 21) - 它是數值,但這是您訓練模型來預測的值,因此必須維持原狀。

若要設定 SVM 模型,請執行下列動作:

  1. 在模組選擇區中找到二元支援向量機器模組,將它推曳到畫布上。

  2. 以滑鼠右鍵按一下訓練模型模組,選取 [複製],然後以滑鼠右鍵按一下畫布並選取 [貼上]。 訓練模型模組複本的資料行選擇與原始模組相同。

  3. 二元支援向量機器模組的輸出連線到第二個訓練模型模組的左側輸入連接埠。

  4. 找到標準化資料模組,將其拖曳到畫布上。

  5. 將左側 [執行 R 指令碼] 模組的左側輸出連接到此模組的輸出 (請注意,模組的輸出連接埠可能連接到多個其他模組)。

  6. 標準化資料模組的左側輸出連接埠連線到第二個訓練模型模組的右側輸入連接埠。

實驗的這部分目前看起來如下:

Training the second model

現在,設定標準化資料模組︰

  1. 按一下以選取標準化資料模組。 在 [屬性] 窗格中,選取 [Tanh] 做為 [轉換方法] 參數。

  2. 按一下 [啟動資料行選取器],選取 [開始於] 的 [無資料行],在第一個下拉式清單中選取 [包含],在第二個下拉式清單中選取 [資料行類型],然後在第三個下拉式清單中選取 [數值]。 這樣會指定轉換所有數值資料行 (且僅限數值)。

  3. 按一下此資料列右側的加號 (+) - 這會建立一排下拉式清單。 在第一個下拉式清單中選取 [排除],在第二個下拉式清單中選取 [資料行名稱],然後在文字欄位中輸入「信用風險」。 這會指定應忽略 [信用風險] 資料行 (需要這麼做是因為此資料行為數值,如未排除,它會被轉換)。

  4. 按一下 [確定] \(打勾記號)。

    選取標準化資料模組的資料行

標準化資料模組現在已設定為在所有數值資料行上執行 Tanh 轉換 ([信用風險] 資料行除外)。

計分及評估模型

您將使用由資料分割模組所分開的測試資料,給我們訓練的模型評分。 然後,您就可以比較兩個模型的結果,了解何者產生的結果較佳。

新增評分模型模組

  1. 找到評分模型模組並拖曳到畫布上。

  2. 將已連線到二元促進式決策樹模組的訓練模型模組,連線到評分模型模組的左側輸入連接埠。

  3. 將右側執行 R 指令碼模組 (或測試資料) 連線到評分模型模組的右側輸入連接埠。

    已連接評分模型模組

    評分模型模組可以立即從測試資料中採取信用資訊,並且將模型產生的預測情況與測試資料中的實際信用風險資料行進行比較。

  4. 複製並貼上評分模型模組來建立第二個複本。

  5. 將 SVM 模型的輸出 (亦即,已連接到 [二元支援向量機器][訓練模型] 模組的輸出連接埠),連接到第二個 [評分模型] 模組的輸入連接埠。

  6. 在 SVM 模型中,您必須像是轉換訓練資料一樣,對測試資料進行相同的轉換。 因此,請複製並貼上標準化資料模組來建立第二個複本,再將其連線到右邊執行 R 指令碼模組。

  7. 將第二個標準化資料模組的左邊輸出連線到第二個評分模型模組的右邊輸入連接埠。

    已連接兩個評分模型模組

新增評估模型模組

為了評估兩個評計分結果並加以比較,您要使用評估模型模組。

  1. 找到評估模型模組並拖曳到畫布上。

  2. 將與促進式決策樹模型相關聯的評分模型模組的輸出連接埠,連線到評估模型模組的左側輸入連接埠。

  3. 將其他評分模型模組連線到右側輸入連接埠。

    已連接評估模型模組

執行實驗並檢查結果

若要執行實驗,請按一下畫布下方的 [執行] 按鈕。 可能需要數分鐘的時間。 每個模組上的旋轉指示器表示正在執行,模組完成時會出現綠色打勾記號。 當所有模組都出現核取記號時,表示實驗執行完成。

實驗目前看起來如下:

Evaluating both models

若要檢查結果,按一下評估模型模組的輸出連接埠,然後選取 [視覺化]。

評估模型模組會產生一對曲線和度量,讓您比較兩個評分模型的結果。 您可以將結果顯示成「受測者操作特徵 (ROC)」曲線、「正確性/召回」曲線或「升力」曲線。 其他顯示的資料還包括混淆矩陣、曲線下面積 (AUC) 的累計值,以及其他度量。 您可以將滑動軸左右移動來變更臨界值,觀察這樣如何影響度量組。

在圖形的右邊,按一下 [已計分的資料集] 或 [要比較的已計分資料集],以醒目提示相關聯的曲線,並在下方顯示相關聯的度量。 在曲線的圖例中,"Scored dataset" 對應至 [評估模型] 模組的左側輸入埠 - 在我們的案例中,這是促進式決策樹模型。 「要比較的已計分資料集」會對應至右側輸入連接埠 (在本例中為 SVM 模型)。 按一下其中一個標籤時,該模型的曲線會反白顯示,並顯示如下圖所示的相對應度量。

ROC curves for models

您可以檢查這些值,以判斷哪個模型最可能提供您想要的結果。 您可以返回並變更不同模型中的參數值,以反覆執行實驗。

解讀這些結果和微調模型效能的藝術與科學超出本教學課程的範圍。 如需更多說明,請參閱下列文章:

提示

每次執行實驗,[執行歷程記錄] 中就會保留該筆逐一查看的記錄。 您可以檢視這些反覆運算,按一下畫布下方的 [檢視執行歷程記錄] 即可回到其中任何一個。 您也可以按一下 [屬性] 窗格中的 [先前執行],回到您目前開啟的反覆運算之前的那一個反覆運算。

您可以按一下畫布下方的 [另存新檔] ,為實驗的任何反覆項目製作一個複本。 使用實驗的 [摘要] 和 [描述] 屬性,以記錄在您實驗反覆運算中已嘗試的動作。

如需詳細資訊,請參閱在 Machine Learning Studio (傳統) 中管理實驗反覆運算

清除資源

如果您不再需要您在本文中建立的資源,請加以刪除,以避免產生費用。 在匯出和刪除產品中使用者資料一文中了解做法。

後續步驟

在本教學課程中,您已完成下列步驟:

  • 建立實驗
  • 訓練多個模型
  • 計分及評估模型

您現在可以開始針對此資料部署模型。