二級決策叢林

使用決策叢林演算法建立二級分類模型

類別: Machine Learning/初始化模型/分類

注意

適用于 : Machine Learning Studio (傳統)

此內容僅適用于 Studio (傳統) 。 Azure Machine Learning 設計工具中已新增類似的拖放模組。 若要深入瞭解 這兩個版本,請參閱這篇文章

模組概觀

本文說明如何在 Azure Machine Learning Studio (傳統) 中使用 雙類別決策蛙鳴 模組,以建立以稱為決策叢林的監督式集團學習演算法為基礎的機器學習模型。

雙類別的決策蛙蛙 模組會傳回未定型的分類器。 然後,您可以使用 [ 定型模型 ] 或 [ 微調模型超參數],在加上標籤的訓練資料集上定型此模型。 然後,定型的模型就可用來進行預測。

關於決策叢林的詳細資訊

決策叢林決策樹系的最新延伸。 決策叢林由一整團的決策導向非循環圖 (DAG) 所組成。

決策叢林有下列優點:

  • 藉由允許將樹狀結構分支合併,決策 DAG 通常會有較低的記憶體使用量,而且會比決策樹更佳的效能,但代價是較長的定型時間。

  • 決策叢林是可以代表非線性決策界限的非參數化模型。

  • 執行整合式特徵選取和分類,在出現雜訊特徵時也能靈活應變。

提示

如需此機器學習演算法背後研究的詳細資訊,請參閱 決策叢林:分類的 Compact 和豐富模型 (可下載的 PDF) 。

如何設定 Two-Class 決策蛙蛙

  1. 兩個類別的決策蛙蛙 模組新增至您在 Studio (傳統) 中的實驗。

  2. 針對 [重新 取樣] 方法,選擇用來建立個別樹狀結構的方法。 您可以選擇 [ 封袋] ] 或 [ 複寫]。

    • 封袋]:選取此選項可使用封袋],也稱為啟動程式匯總。

      決策中的每個樹狀都輸出一個高斯分佈作為預測。 匯總是為了藉由結合個別樹狀結構所傳回的所有 Gaussians,來找出前兩分鐘符合 Gaussians 混合時間的高斯。

    • 複寫 :在 複寫中,每個樹狀結構都會以完全相同的輸入資料進行定型。 判斷每個樹狀節點所使用的分割述詞會保持隨機,而樹狀結構將會不同。

      如需詳細資訊,請參閱 電腦視覺和醫療影像分析的決策樹系。Criminisi 和 Shotton。Springer link 2013。

  3. 藉由設定 [ 建立定型模式] 選項,指定您要如何定型模型。

    • 單一參數:如果您知道要如何設定模型,您可以提供一組特定值做為引數。

    • 參數範圍:如果您不確定最佳參數,可以藉由指定多個值並使用 微調模型超參數 模組尋找最佳的設定,找到最佳的參數。 定型者將逐一查看您提供的多個設定組合,並判斷產生最佳模型的值組合。

  4. 針對 [ 決策 dag 的數目],指出可在集團中建立的最大圖形數目。

  5. 如需 決策 dag 的最大深度,請指定每個圖形的最大深度。

  6. 針對 決策 dag 的最大寬度,指出每個圖形的最大寬度。

  7. 每個決策 DAG 層的優化步驟數目 中,指出建立每個 DAG 時要執行的資料反復次數。

  8. 選取 [ 允許分類功能的未知值 ] 選項,在測試或驗證資料中建立未知值的群組。

    如果您取消選取它,模型可以接受培訓資料中包含的值。 在前一個案例中,此模型可能是較不精確的已知值,但它可以提供較佳預測新 (未知) 的值。

  9. 將已加上標籤的資料集新增至實驗,並連接其中一個 定型模組

    • 如果您將 [ 建立定型模式] 設定為 [ 單一參數],請使用「 定型模型 」模組。

    • 如果您將 [ 建立定型模式] 設定為 [ 參數範圍],請使用 [ 微調模型超參數 ] 模組。

    注意

    如果您將參數範圍傳遞給 定型模型,它只會使用 [參數範圍] 清單中的第一個值。

    如果您將一組參數值傳遞至 微調模型超參數 模組,當它預期每個參數的設定範圍時,會忽略這些值並使用學習模組的預設值。

    如果您選取 [ 參數範圍 ] 選項,並輸入任何參數的單一值,則整個清除期間都會使用您所指定的單一值,即使其他參數會在某個範圍的值之間變更。

結果

定型完成後:

  • 若要使用模型進行評分,請將它連接到 評分模型,以預測新輸入範例的值。

範例

如需如何在機器學習中使用決策叢林的範例,請參閱 Azure AI 資源庫

技術說明

本節包含對常見問題的執行詳細資料、秘訣和解答。

使用提示

如果您的資料有限,或想要將定型模型所花費的時間降到最低,請嘗試這些設定。

有限的定型集

如果您的定型集很小:

  • 使用較多的決策 DAG 來建立決策叢林 (例如,超過 20 個)。
  • 使用 [封袋] 選項來重新取樣。
  • 每個 DAG 層指定大量的最佳化步驟 (例如,超過 10,000 個)。

有限的定型時間

如果定型集很大,但定型時間有限:

  • 使用較少的決策 DAG 來建立決策叢林 (例如,5-10)。
  • 使用 [複寫] 選項來重新取樣。
  • 每個 DAG 層指定較少的最佳化步驟 (例如,少於 2000 個)。

模組參數

Name 範圍 類型 預設 描述
重新取樣方法 任意 ResamplingMethod Bagging 選擇重新取樣方法
決策 DAG 的數目 >= 1 整數 8 指定在集團中建立的決策圖數目
決策 DAG 的最大深度 >= 1 整數 32 指定集團中的決策圖的最大深度
決策 DAG 的最大寬度 >= 8 整數 128 指定集團中的決策圖的最大寬度
每一決策 DAG 層的最佳化步驟數目 >= 1000 整數 2048 指定要用於最佳化決策圖的每個層級的步驟數目
類別特徵中允許未知值 任意 布林值 True 指出現有類別特徵的未知值是否可以對應至新的額外特徵

輸出

名稱 類型 描述
未定型的模型 ILearner 介面 未定型的二元分類模型

另請參閱

分類
多元決策蛙蛙
A-Z 模組清單