多級決策叢林

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

使用決策叢林演算法建立多級分類模型

類別:機器學習/初始化模型/分類

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的多元決策蛙蛙模組,建立以稱為決策叢林的監督式學習演算法為基礎的機器學習模型。

您可以使用此模組來定義模型及其參數,然後連接加上標籤的訓練資料集,以使用其中一個 定型模組來定型模型。 定型的模型可以用來預測具有多個值的目標。

關於決策叢林的詳細資訊

決策叢林決策樹系的最新延伸。 決策叢林由一整團的決策導向非循環圖 (DAG) 所組成。

決策叢林有下列優點:

  • 由於允許樹狀結構分支合併,決策 DAG 通常比決策樹耗用較少的記憶體,整體效能也較佳,只是定型時間稍微久一些。

  • 決策叢林是可以代表非線性決策界限的非參數化模型。

  • 執行整合式特徵選取和分類,在出現雜訊特徵時也能靈活應變。

如需此機器學習演算法背後研究的詳細資訊,請參閱 決策叢林:分類的 Compact 和豐富模型 (可下載的 PDF) 。

如何設定多元決策蛙模型

  1. 多元決策蛙 模組新增至您在 Studio (傳統) 中的實驗。 您可以在機器學習初始化模型分類底下找到此模組。

  2. 按兩下模組以開啟 [ 屬性 ] 窗格。

  3. 重新取樣方法,選擇建立多個樹狀結構的方法,可能是封袋] 或 replication。

    • 封袋]:選取此選項可使用封袋],也稱為啟動程式匯總。

      決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。 匯總是為了藉由結合個別樹狀結構所傳回的所有 Gaussians,來找出前兩分鐘符合 Gaussians 混合時間的高斯。

    • 複寫:若要使用複寫,請選取此選項。 在此方法中,每個樹狀結構都會以完全相同的輸入資料進行定型。 判斷每個樹狀節點所使用的分割述詞會保持隨機,因此會建立不同的樹狀結構。

  4. 設定 [建立定型模式] 選項來指定要如何定型模型。

    • 單一參數:當您知道要如何設定模型時,請使用此選項。

    • 參數範圍:如果您不確定最佳參數,而且想要使用參數清除,請使用此選項。

  5. 決策 dag 的數目:指出可在集團中建立的最大圖形數目。

  6. 決策 dag 的最大深度:指定每個圖形的最大深度。

  7. 決策 dag 的最大寬度:指定每個圖形的最大寬度。

  8. 每個決策 DAG 層的優化步驟數目:指出建立每個 DAG 時要執行的資料反復次數。

  9. 允許類別特徵有未知的值:選取此選項可在測試或驗證資料中建立未知值的群組。 此模型對於已知值可能較不精確,但針對新的 (未知) 值可提供更佳的預測。

    如果您取消選取此選項,模型只能接受定型資料中出現的值。

  10. 連線已加上標籤的資料集,以及其中一個定型模組:

    • 如果您將 [ 建立定型模式] 設定為 [ 單一參數],請使用「 定型模型 」模組。

    • 如果您將 [ 建立定型模式] 設定為 [ 參數範圍],請使用 [ 微調模型超參數 ] 模組。 使用這個選項時,演算法會逐一查看您提供的多個設定組合,並判斷產生最佳模型的值組合。

    注意

    如果您將參數範圍傳遞給定型模型,則其只會使用參數範圍清單中的第一個值。

    如果您將一組參數值傳遞至 微調模型超參數 模組,當它預期每個參數的設定範圍時,會忽略這些值並使用學習模組的預設值。

    如果您選取 [參數範圍] 選項,並對任何參數輸入單一值,則在整個掃掠期間都會使用您所指定的該單一值,即使其他參數在某個範圍的值之間變更亦然。

  11. 執行實驗。

結果

定型完成後:

  • 若要使用模型進行評分,請將它連接到 評分模型,以預測新輸入範例的值。

範例

如需如何在機器學習中使用決策樹系的範例,請參閱 Azure AI 資源庫

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

如需有關使用 [複寫 ] 選項定型程式的詳細 資訊,請參閱:

使用提示

如果您的資料有限,或想要將定型模型所花費的時間降到最低,請嘗試下列建議:

有限的定型集

如果定型集只包含少數的執行個體:

  • 使用較多的決策 DAG 來建立決策叢林 (例如,超過 20 個)
  • 使用 [封袋] 選項來重新取樣。
  • 每個 DAG 層指定大量的最佳化步驟 (例如,超過 10,000 個)。

有限的定型時間

如果定型集包含大量的執行個體,而且定型時間有限:

  • 建立使用較少決策 Dag 的決策蛙 (例如,5-10) 。
  • 使用 [複寫] 選項來重新取樣。
  • 每個 DAG 層指定較少的最佳化步驟 (例如,少於 2000 個)。

模組參數

名稱 範圍 類型 預設 描述
重新取樣方法 任意 ResamplingMethod Bagging 選擇重新取樣方法
決策 DAG 的數目 >=1 整數 8 指定可在集團中建立的決策圖數目
決策 DAG 的最大深度 >=1 整數 32 指定要在集團中建立的決策圖的最大深度
決策 DAG 的最大寬度 >= 8 整數 128 指定要在集團中建立的決策圖的最大寬度
每一決策 DAG 層的最佳化步驟數目 >= 1000 整數 2048 指定要用於最佳化決策圖的每個層級的步驟數目
類別特徵中允許未知值 任意 布林值 True 指出現有類別特徵的未知值是否可以對應至新的額外特徵

輸出

名稱 類型 描述
未定型的模型 ILearner 介面 未定型的二級分類模型

另請參閱

二級決策叢林
分類
A-Z 模組清單