決策樹系迴歸

發行項
05/06/2019

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

使用決策樹系演算法建立迴歸模型

Category：初始化模型-回歸

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文描述如何在機器學習 Studio (傳統) 中使用決策樹系回歸模組，以根據決策樹的集團來建立回歸模型。

設定模型之後，您必須使用加上標籤的資料集和「定型模型」模組來定型模型。然後，定型的模型就可用來進行預測。或者，未定型的模型可以傳遞至交叉驗證模型，以根據加上標籤的資料集進行交叉驗證。

決策樹系在回歸工作中的運作方式

決策樹是非參數化模型，可對每個執行個體執行一系列簡單的測試，周遊整個二元樹狀資料結構，直到抵達葉節點 (決策) 為止。

決策樹有下列優點：

在定型和預測期間，執行運算和記憶體使用都很有效率。
可以代表非線性決策界限。
執行整合式特徵選取和分類，在出現雜訊特徵時也能靈活應變。

此迴歸模型由決策樹的集團所組成。迴歸決策樹系中的每個樹狀結構都會輸出高斯分佈作為預測。系統會對樹狀結構整體執行彙總，以找出最接近模型中所有樹狀結構合併分佈的高斯分佈。

如需有關此演算法及其實作為理論架構的詳細資訊，請參閱這篇文章：決策樹系：適用于分類、回歸、密度估計、各種方式 Learning 和 Semi-Supervised 的統一架構 Learning

如何設定決策樹系迴歸模型

將 決策樹系回歸 模組新增至實驗。您可以在 [機器學習、初始化模型和回歸] 下的 [Studio (傳統) 中找到此模組。
開啟模組屬性，然後在 [重新 取樣] 方法中，選擇用來建立個別樹狀結構的方法。您可以選擇 [封袋] 或 [複寫]。
- 封袋：封袋又稱為「啟動程序彙總」。迴歸決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。匯總是為了藉由結合個別樹狀結構所傳回的所有 Gaussians，來找出前兩分鐘符合 Gaussians 混合時間的高斯。
  
  如需詳細資訊，請參閱維基百科中的啟動程序彙總。
- 複寫：在複寫中，系統會以完全相同的輸入資料將每個樹狀結構定型。每個樹狀節點所使用的分割述詞判斷會維持隨機狀態，使樹狀結構具有差異。
  
  如需有關使用 [複寫] 選項將程序定型的詳細資訊，請參閱電腦視覺和醫療影像分析的決策樹系。Criminisi and J. Shotton. Springer 2013. (英文)。
設定 [建立定型模式] 選項來指定要如何定型模型。
- 單一參數
  
  如果您知道要如何設定模型，您可以提供一組特定值做為引數。您可能已經透過實驗知道這些值，或已依據指導收到這些值。
- 參數範圍
  
  如果您不確定最佳參數，可以藉由指定多個值並使用參數清除來找出最佳的設定，找到最佳的參數。
  
  微調模型超參數會逐一查看您提供的設定的所有可能組合，並判斷會產生最佳結果的設定組合。
針對 [決策樹數目]，指出要在整體中建立的決策樹總數。藉由建立多個決策樹，您或許能夠有較佳的涵蓋範圍，但是定型時間會拉長。

提示

此值也會控制視覺化定型模型時所顯示的樹狀結構數目。如果您想要查看或列印單一樹狀結構，您可以將此值設定為1。不過，這表示只會產生一個樹狀結構 (具有初始) 參數集的樹狀結構，而不會執行進一步的反覆運算。
針對 [決策樹的最大深度]，請輸入位數以限制任何決策樹的最大深度。增加樹狀結構的深度可增加有效位數，但可能會有過度配適及定型時間增加的風險。
針對 [每個節點的隨機分割數目]：輸入建立樹狀結構的每個節點時所要使用的分割數目。分割意指樹狀結構的每個層級 (節點) 中的特徵是隨機分割的。
針對 [每個分葉節點的樣本數下限]，請指出在樹狀結構中建立任何終端節點 (分葉) 所需的最低案例數目。

藉由增加此值，您會增加建立新規則的臨界值。例如，若預設值是 1，即使單一案例可能會造成新規則的建立。如果您將此值增加至 5，則定型資料至少要包含 5 個案例，才會符合相同的條件。
選取 [類別特徵中允許未知值] 選項，可以在訓練或驗證集中建立未知值的群組。

如果您取消選取它，模型可以接受培訓資料中包含的值。在前一個案例中，此模型可能是較不精確的已知值，但它可以提供較佳預測新 (未知) 的值。
連線已加上標籤的資料集，請選取包含不超過兩個結果的單一標籤資料行，然後連接定型模型或微調模型超參數。
- 如果您將 [ 建立定型模式] 選項設為 [ 單一參數]，請使用「定型模型」模組來定型模型。
- 如果您將 [ 建立定型模式] 選項設定為 [ 參數範圍]，請使用 [ 微調模型超參數] 來定型模型。
執行實驗。

結果

定型完成後：

若要查看在每個反復專案上建立的樹狀結構，請以滑鼠右鍵按一下定型模組的輸出，然後選取 [ 視覺化]。
若要查看每個節點的規則，請按一下每個樹狀結構，並向下切入分割。
若要儲存 traind 模型的快照集，請以滑鼠右鍵按一下定型模組的輸出，然後選取 [ 另存為定型的模型]。後續的實驗回合不會更新此模型複本。

範例

如需回歸模型的範例，請參閱Cortana 智慧資源庫中的下列範例實驗：

比較回歸模型範例：對比數種不同類型的回歸模型。
情感分析範例：使用數種不同的回歸模型來產生預測的評等。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

如果您將參數範圍傳遞給定型模型，它只會使用 [參數範圍] 清單中的第一個值。
如果您將一組參數值傳遞至微調模型超參數模組，當它預期每個參數的設定範圍時，會忽略值並使用學習模組的預設值。
如果您選取 [ 參數範圍 ] 選項，並輸入任何參數的單一值，則整個清除過程將會使用您所指定的單一值，即使其他參數會在某個範圍的值之間變更。

使用提示

如果您的資料有限，或想要儘可能縮短定型模型所花費的時間，請嘗試這些設定：

有限的定型集。 如果定型集只包含少數的執行個體：

使用較多的決策樹來建立決策樹系 (例如，超過 20 個)
使用 [封袋] 選項來重新取樣
每個節點指定大量的隨機分割 (例如，超過 1000 個)

有限的定型時間。 如果定型集包含大量的執行個體，而且定型時間有限：

使用較少的決策樹 (例如，5-10) 建立決策樹系
使用 [複寫] 選項來重新取樣
每個節點指定較少的隨機分割 (例如，少於 100 個)

模組參數

名稱	範圍	類型	預設	描述
重新取樣方法	任意	ResamplingMethod	Bagging	選擇重新取樣方法
決策樹的數目	>=1	整數	8	指定在集團中建立的決策樹個數
決策樹的最大深度	>=1	整數	32	指定集團中可建立的任何決策樹的最大深度
每個節點的隨機分割數目	>=1	整數	128	指定每個節點產生的分割數目，以從中選取最佳的分割
每一個葉節點的樣本數下限	>=1	整數	1	指定要產生葉節點所需的最少定型樣本數
類別特徵中允許未知值	任意	Boolean	true	指出現有類別特徵的未知值是否可以對應至新的額外特徵

輸出

名稱	類型	描述
未定型的模型	ILearner 介面	未定型的迴歸模型

另請參閱

迴歸

A-Z 模組清單