修改計數資料表參數

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

修改用來從計數建立特徵的參數

Category:具有計數的 Learning

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文描述如何使用機器學習 Studio (傳統) 中的 [修改計數資料表參數] 模組,來變更從計數資料表產生功能的方式。

一般而言,若要建立以計數為基礎的功能,您可以使用 組建計數轉換 來處理資料集和建立計數資料表,然後從該計數資料表產生一組新的功能。

但是,如果您已經建立計數資料表,可以使用 [ 修改計數資料表參數 ] 模組來編輯如何處理計數資料的定義。 這可讓您根據現有的資料建立一組不同的以計數為基礎的統計資料,而不需要重新分析資料集。

如何設定 Modify Count 參數

  1. 在 [ 轉換 ] 群組中,找出您想要修改的轉換,然後將它新增至您的實驗。

    您先前應該已執行建立計數轉換的實驗。

    • 若要修改儲存的轉換:在 [ 轉換 ] 群組中找出轉換,然後將它新增至您的實驗。

    • 若要修改在相同實驗中建立的計數轉換:如果轉換尚未儲存,但目前的實驗中以輸出形式提供 (例如,請檢查 組建計數轉換 模組的輸出) ,您可以藉由連接模組直接使用它。

  2. 加入 [ 修改計數資料表參數 ] 模組,並將轉換連接為輸入。

  3. 在 [修改計數資料表參數] 模組的 [屬性] 窗格中,輸入要做為垃圾 bin 臨界值的值。

    此值會指定每個功能值必須找到的最少出現次數,以供使用計數。 如果值的頻率小於垃圾 bin 閾值,則值標籤組不會計為離散專案;相反地,計數小於臨界值的所有專案會放在單一「垃圾 bin」中。

    如果您使用小型資料集,而您正在計算和定型相同的資料,則良好的起始值為1。

  4. 如需 其他先前的虛擬範例,請輸入一個數位來指出要包含的其他虛擬範例數目。 您不需要提供這些範例;虛擬範例是根據先前的散發產生的。

  5. 針對 [ 拉普拉斯分配雜訊比例],輸入代表用來從拉普拉斯分配分佈中取樣的小數位數的正數浮點值。 當您設定小數位數值時,會在模型中併入一些可接受的雜訊層級,因此,模型較不可能受到資料中未可見值的影響。

  6. 在 [ 輸出功能包括] 中,選擇建立以計數為基礎的功能以納入轉換時要使用的方法。

    • CountsOnly:使用計數來建立特徵。

    • LogOddsOnly:使用機率比例的記錄來建立特徵。

    • BothCountsAndLogOdds:使用計數和記錄機率來建立特徵。

  7. 如果您想要在建立功能時覆寫輸出中的 IsBackOff 旗標,請選取 [忽略回寫資料行] 選項。 當您選取此選項時,即使資料行沒有大量的計數值,也會建立以計數為基礎的特徵。

  8. 執行實驗。 然後,您可以視需要將 Modify Count Table 參數 的輸出儲存為新的轉換。

範例

如需此課程模組的範例,請參閱 Azure AI 資源庫

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

如果設定拉普拉斯雜訊比例參數,則會以統計上安全的方式來計算及定型相同的資料集。

預期的輸入

名稱 類型 說明
計算轉換 ITransform 介面 要套用的計數轉換

模組參數

名稱 類型 範圍 選擇性 預設 描述
記憶體回收筒臨界值 Float >= 0.0 f 必要 10.0 f 將特徵化資料行值與垃圾收集的閾值
其他先驗虛擬範例 Float >= 0.0 f 必要 42.0 f 要包含在先前散發套件後面的其他虛擬範例
拉普拉斯雜訊比例 Float >= 0.0 f 必要 0.0f 用來取樣雜訊的拉普拉斯分配分佈規模
輸出特徵包括 OutputFeatureType 必要 BothCountsAndLogOdds 要輸出的功能
忽略 Back Off 資料行 Boolean 必要 false 是否要忽略輸出中的 IsBackOff 資料行

輸出

名稱 類型 說明
修改的轉換 ITransform 介面 修改過的轉換

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0086 計數轉換無效時所發生的例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

以計數學習