多級決策叢林

發行項
05/06/2019

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

使用決策叢林演算法建立多級分類模型

類別：機器學習/初始化模型/分類

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的多元決策蛙蛙模組，建立以稱為決策叢林的監督式學習演算法為基礎的機器學習模型。

您可以使用此模組來定義模型及其參數，然後連接加上標籤的訓練資料集，以使用其中一個定型模組來定型模型。定型的模型可以用來預測具有多個值的目標。

關於決策叢林的詳細資訊

決策叢林是決策樹系的最新延伸。決策叢林由一整團的決策導向非循環圖 (DAG) 所組成。

決策叢林有下列優點：

由於允許樹狀結構分支合併，決策 DAG 通常比決策樹耗用較少的記憶體，整體效能也較佳，只是定型時間稍微久一些。
決策叢林是可以代表非線性決策界限的非參數化模型。
執行整合式特徵選取和分類，在出現雜訊特徵時也能靈活應變。

如需此機器學習演算法背後研究的詳細資訊，請參閱決策叢林：分類的 Compact 和豐富模型 (可下載的 PDF) 。

如何設定多元決策蛙模型

將 多元決策蛙 模組新增至您在 Studio (傳統) 中的實驗。您可以在機器學習、初始化模型和分類底下找到此模組。
按兩下模組以開啟 [ 屬性 ] 窗格。
重新取樣方法，選擇建立多個樹狀結構的方法，可能是封袋] 或 replication。
- 封袋]：選取此選項可使用封袋]，也稱為啟動程式匯總。
  
  決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。匯總是為了藉由結合個別樹狀結構所傳回的所有 Gaussians，來找出前兩分鐘符合 Gaussians 混合時間的高斯。
- 複寫：若要使用複寫，請選取此選項。在此方法中，每個樹狀結構都會以完全相同的輸入資料進行定型。判斷每個樹狀節點所使用的分割述詞會保持隨機，因此會建立不同的樹狀結構。
設定 [建立定型模式] 選項來指定要如何定型模型。
- 單一參數：當您知道要如何設定模型時，請使用此選項。
- 參數範圍：如果您不確定最佳參數，而且想要使用參數清除，請使用此選項。
決策 dag 的數目：指出可在集團中建立的最大圖形數目。
決策 dag 的最大深度：指定每個圖形的最大深度。
決策 dag 的最大寬度：指定每個圖形的最大寬度。
每個決策 DAG 層的優化步驟數目：指出建立每個 DAG 時要執行的資料反復次數。
允許類別特徵有未知的值：選取此選項可在測試或驗證資料中建立未知值的群組。此模型對於已知值可能較不精確，但針對新的 (未知) 值可提供更佳的預測。

如果您取消選取此選項，模型只能接受定型資料中出現的值。
連線已加上標籤的資料集，以及其中一個定型模組：
- 如果您將 [ 建立定型模式] 設定為 [ 單一參數]，請使用「定型模型」模組。
- 如果您將 [ 建立定型模式] 設定為 [ 參數範圍]，請使用 [ 微調模型超參數 ] 模組。使用這個選項時，演算法會逐一查看您提供的多個設定組合，並判斷產生最佳模型的值組合。
注意

如果您將參數範圍傳遞給定型模型，則其只會使用參數範圍清單中的第一個值。

如果您將一組參數值傳遞至微調模型超參數模組，當它預期每個參數的設定範圍時，會忽略這些值並使用學習模組的預設值。

如果您選取 [參數範圍] 選項，並對任何參數輸入單一值，則在整個掃掠期間都會使用您所指定的該單一值，即使其他參數在某個範圍的值之間變更亦然。
執行實驗。

結果

定型完成後：

若要使用模型進行評分，請將它連接到評分模型，以預測新輸入範例的值。

範例

如需如何在機器學習中使用決策樹系的範例，請參閱 Azure AI 資源庫：

比較多元分類器範例：使用數種演算法，並討論其優缺點。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

如需有關使用 [複寫 ] 選項定型程式的詳細 資訊，請參閱：

電腦視覺和醫療影像分析的決策樹系。 Criminisi 和 Shotton。 Springer link 2013

使用提示

如果您的資料有限，或想要將定型模型所花費的時間降到最低，請嘗試下列建議：

有限的定型集

如果定型集只包含少數的執行個體：

使用較多的決策 DAG 來建立決策叢林 (例如，超過 20 個)
使用 [封袋] 選項來重新取樣。
每個 DAG 層指定大量的最佳化步驟 (例如，超過 10,000 個)。

有限的定型時間

如果定型集包含大量的執行個體，而且定型時間有限：

建立使用較少決策 Dag 的決策蛙 (例如，5-10) 。
使用 [複寫] 選項來重新取樣。
每個 DAG 層指定較少的最佳化步驟 (例如，少於 2000 個)。

模組參數

名稱	範圍	類型	預設	描述
重新取樣方法	任意	ResamplingMethod	Bagging	選擇重新取樣方法
決策 DAG 的數目	>=1	整數	8	指定可在集團中建立的決策圖數目
決策 DAG 的最大深度	>=1	整數	32	指定要在集團中建立的決策圖的最大深度
決策 DAG 的最大寬度	>= 8	整數	128	指定要在集團中建立的決策圖的最大寬度
每一決策 DAG 層的最佳化步驟數目	>= 1000	整數	2048	指定要用於最佳化決策圖的每個層級的步驟數目
類別特徵中允許未知值	任意	布林值	True	指出現有類別特徵的未知值是否可以對應至新的額外特徵

輸出

名稱	類型	描述
未定型的模型	ILearner 介面	未定型的二級分類模型

另請參閱

二級決策叢林
 分類
 A-Z 模組清單