匯入計數資料表

匯入先前建立的計數資料表

類別: 學習計數

注意

適用于 : Machine Learning Studio (傳統)

此內容僅適用于 Studio (傳統) 。 Azure Machine Learning 設計工具中已新增類似的拖放模組。 若要深入瞭解 這兩個版本,請參閱這篇文章

模組概觀

本文說明如何使用 Azure Machine Learning Studio 中的匯 入計數資料表 模組 (傳統) 。

入計數資料表 模組的目的是要讓使用舊版 Azure Machine Learning 來建立以計數為基礎的統計資料資料表的客戶升級其實驗。 此模組會合並現有的計數資料表與新的資料。

如需有關計數資料表以及如何使用它們來建立特徵的一般資訊,請參閱 使用計數學習

重要

此模組僅提供給使用已被取代的組建計數資料表和已淘汰的計數 Featurizer 模組的實驗回溯相容性。 建議您將實驗升級為使用較新的模組,以利用新功能。

針對所有新的實驗,我們建議使用下列模組:

如何設定匯入計數資料表

  1. 在 Azure Machine Learning Studio (傳統) 中,開啟包含使用 [已淘汰的組建計數資料表] 模組建立之計數資料表的實驗。

  2. 將匯 入計數資料表 模組新增至實驗。

  3. 將 [組建計數] 資料表的兩個輸出 (已被取代的) 模組連接到 [匯 入計數] 資料表 的相符輸入埠。

    如果您有另一個要與 [匯入的計數] 資料表合併的計數資料集,請將它連接到 [匯 入計數資料表 ] 模組的最右邊輸入。

  4. 您可以使用 [ 計算類型 ] 選項來指定計數資料表的儲存位置和方式:

    • 資料集:用來建立計數的資料會儲存為 Azure Machine Learning Studio (傳統) 中的資料集。

    • Blob:用來建立計數的資料會儲存為 Windows Azure 儲存體中的區塊 Blob。

    • MapReduce:用來建立計數的資料會儲存為 Windows Azure 儲存體中的 blob。

      對於非常大型的資料集,通常偏好此選項。 若要存取計數,您必須啟用 HDInsight 叢集。 已啟動 MapReduce 工作來執行計數。 這兩個活動可能會產生儲存體和計算成本。

      如需詳細資訊,請參閱 Azure 上的 HDInsight

    在指定資料儲存模式之後,您可能需要為數據提供其他連接資訊,即使您之前在實驗中使用 [匯 入資料 ] 模組來存取資料也一樣。 這是因為計數 Featurizer (已淘汰的) 模組會分別存取資料儲存區,以便讀取資料並建立必要的資料表。

  5. 使用 [ 計數資料表類型 ] 選項,即可指定用來儲存計數之資料表的格式和儲存模式。

    • Dictionary:使用字典計數資料表。

      選取資料行中的所有資料行值會視為字串,並使用大小最多為 31 位元的位元陣列來進行雜湊處理。 因此,所有資料行值會以 32 位元非負整數來表示。

    • CMSketch:使用儲存在 計數最小草圖資料表 中的資料表。

      使用此格式時,會使用多個較小範圍的獨立雜湊函式來改善記憶體效率,並降低雜湊衝突的機率。

    一般來說,您應該針對較小的資料集使用 [ 字典 ] 選項 (<1gb) ,然後針對較大的資料集使用 CMSketch 選項。

  6. 執行實驗。

  7. 完成時,以滑鼠右鍵按一下 [匯 入計數資料表 ] 模組的輸出,並選取 [ 儲存為轉換],然後輸入轉換的名稱。 當您這樣做時,合併的計數資料表和您可能套用的任何特徵化參數會以可套用至新資料集的格式儲存。

範例

使用 AZURE AI 資源庫中的這些範例實驗,探索以計數為基礎之特徵化的範例:

注意

這些資源庫實驗都是使用先前已淘汰的版本學習,並使用 計數 模組來建立。 當您在 Studio 中開啟實驗 (傳統) 時,會自動升級實驗以使用較新的模組。

預期的輸入

名稱 類型 Description
計數中繼資料 資料表 計數的中繼資料
計數資料表 資料表 計數資料表
計數資料集 資料表 用於計算的資料集

模組參數

名稱 類型 範圍 選擇性 預設 描述
計數類型 CountingType 必要 計數類型

輸出

名稱 類型 Description
計算轉換 ITransform 介面 計數轉換

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0018 如果輸入資料集無效,就會發生例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱 機器學習錯誤碼

如需 API 例外狀況的清單,請參閱 機器學習 REST API 錯誤碼

另請參閱

以計數學習