二級貝氏點機器

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

建立貝氏點機器二元分類模型

類別:機器學習/初始化模型/分類

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何在機器學習 Studio (傳統) 中使用二級貝氏機率分類點機器模組,以建立未定型的二元分類模型。

此課程模組中的演算法會使用貝氏方法來進行線性分類,稱為「貝氏機率分類點機器」。 此演算法會藉由選擇一個「平均」分類器(貝氏機率分類點),有效率地估計線性分類器理論上最佳的貝氏平均值 (的泛用效能) 。 由於貝氏點機器是一種貝氏分類模型,並不會因為定型資料而過度配度。

如需詳細資訊,請參閱 Microsoft 機器學習 blog 上的 Chris Bishop 文章:採用不確定性-概率推斷

如何設定 Two-Class 貝氏機率分類點電腦

  1. 在機器學習 Studio (傳統) 中,將 [二級貝氏機率分類點機器] 模組新增至您的實驗。 您可以在 [機器學習初始化模型分類] 下找到此模組。

  2. 針對 [定型反復專案 數目],輸入一個數位來指定訊息傳遞演算法反覆運算定型資料的頻率。 一般而言,反覆次數應該設為 5-100 範圍中的值。

    反覆定型次數愈多,預測愈精確,但定型會愈慢。

    對於大部分資料集而言,預設值 30 次反覆定型已足夠讓演算法做出精確的預測。 有時,使用較少次的反覆運算也能做出精確的預測。 在特徵高度相關的資料集上,較多次反覆定型可能較有益。

  3. 如果您想要在定型和預測中,將常數特徵或偏差加入至每個實例,請選取 [ 包含偏差] 選項。

    當資料尚未包含常數特徵時,則有必要包含偏差。

  4. 選取 [ 允許類別特徵中的未知值] 選項,以建立未知值的群組。

    如果您取消選取此選項,則模型只會接受訓練資料中包含的值。

    如果您選取此選項並允許未知的值,則模型可能較不精確地得知已知值,但可為新的 (未知的) 值提供更好的預測。

  5. 加入「 定型模型 」模組的實例和定型資料。

  6. 連線兩個類別貝氏機率分類點機器模組的定型資料和輸出至「定型模型」模組,然後選擇 [標籤] 資料行。

  7. 執行實驗。

結果

定型完成之後,以滑鼠右鍵按一下 [ 定型模型 ] 模組的輸出以查看結果:

  • 若要查看模型參數的摘要,以及從定型學到的功能加權,請選取 [ 視覺化]。

  • 若要儲存模型以供稍後使用,請以滑鼠右鍵按一下 定型模型的輸出,然後選取 [ 另存為定型的模型]。

  • 若要進行預測,請使用定型的模型作為 計分模型 模組的輸入。

    未定型的模型也可以傳遞至 交叉驗證模型 ,以根據加上標籤的資料集進行交叉驗證。

範例

若要查看如何在機器學習中使用 Two-Class 貝氏機率分類點機器,請參閱 Azure AI 資源庫中的下列範例實驗:

技術說明

本節包含有關此演算法的執行詳細資料和常見問題。

本文 (PDF) :貝氏機率分類點機器、Herbert、Graepe 和 Campbell這份檔提供原始研究和基礎理論的詳細資料。

不過,此實作為以數種方式改善原始演算法:

  • 採用期望傳播訊息傳遞演算法。 如需詳細資訊,請參閱 近似貝氏推斷的演算法系列

  • 不需要參數掃描。

  • 這個方法不需要將資料正規化。

這些改進使得貝氏點機器分類模型更健全、更易於使用,不必再浪費許多時間來調整參數。

模組參數

名稱 範圍 類型 預設 描述
反覆定型的次數 >=1 整數 30 指定用於定型的反覆次數
包含偏差 任意 布林值 True 指出是否應該將常數特徵或偏差加入至每個執行個體
類別特徵中允許未知值 任意 布林值 True 如果為 True,則會為每個類別資料行建立額外層級。 測試資料集內若有任何層級是定型資料集內所有沒有的,則會對應到此額外層級。

輸出

名稱 類型 描述
未定型的模型 ILearner 介面 未定型的二元分類模型

另請參閱

分類A-z模組清單