轉換為資料集

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

將資料輸入轉換為 Microsoft 機器學習所使用的內部資料集格式

類別: 資料格式轉換

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的 [轉換成資料集] 模組,將實驗可能需要的任何資料轉換為 Studio (傳統) 所使用的內部格式。

在大部分的情況下都不需要轉換,因為在資料上執行任何作業時,機器學習會隱含地將資料轉換成其原生資料集格式。

不過,如果您已在一組資料上執行某種正規化或清除,而且想要確保所做的變更可用於進一步的實驗,則建議將資料儲存為資料集格式。

注意

請注意,[轉換成資料集] 只是變更資料的格式,並不會在工作空間中儲存資料的新複本。 若要儲存資料集,請按兩下輸出埠,選取 [ 另存為資料集],然後輸入新的名稱。

如何使用「轉換為資料集」

建議您在使用 [轉換成資料集] 之前,先使用 [編輯中繼資料] 模組準備資料集。 您可以加入或變更資料行名稱、調整資料類型等等。

  1. 將 [ 轉換成資料集 ] 模組新增至您的實驗。 您可以在機器學習 Studio (傳統) 的 [資料格式轉換] 分類中找到此模組。

  2. 連線到輸出資料集的任何模組。

    只要資料是 tabular,即可將其轉換成資料集。 這包括使用匯入資料載入的資料、以手動方式使用輸入資料所建立的資料、自訂模組中的程式碼所產生的資料、使用「套用」轉換來轉換的資料集,或使用「套用SQL 轉換所產生或修改的資料集。

  3. 在 [ 動作 ] 下拉式清單中,指出您是否想要在儲存資料集之前對資料進行任何清除:

    • None:依原樣使用資料。

    • SetMissingValue:指定在資料集內任何有遺漏值的地方插入的預留位置。 預設預留位置是問號字元 (? ) ,但您可以使用 [ 自訂遺漏值 ] 選項來輸入不同的值。

    • ReplaceValues:使用此選項以指定要以任何其他精確值取代的單一精確值。 例如,假設您的資料包含作為遺漏值之預留位置的字串 obs ,您可以使用下列選項來指定自訂取代作業:

      1. Replace 設定為 Custom

      2. 針對 [ 自訂值],輸入您想要尋找的值。 在此情況下,您會輸入 obs

      3. 在 [ 新值] 中,輸入要用來取代原始字串的新值。 在此情況下,您可以輸入 ?

    請注意,ReplaceValues 作業僅適用於完全相符的值。 例如,下列字串不會受到影響:obs.obsolete

    • SparseOutput:表示資料集是稀疏的。 藉由建立稀疏資料向量,您可以確保遺漏值不會影響稀疏資料散發。 選擇這個選項之後,您必須指出遺漏值和零值的處理方式。

    若要移除零以外的任何值,請按一下 [ 移除 ] 選項,然後輸入要移除的單一值。 您可以移除遺漏值,或設定自訂值以從向量中刪除。 只會移除完全相符的專案。 例如,如果您在 [移除值] 文字方塊中輸入 x ,資料列 xx 就不會受到影響。

    預設會將 [ 移除零 ] 選項設定為 True ,表示在建立稀疏資料行時,將會移除所有的零值。

  4. 執行實驗,或以滑鼠右鍵按一下 [ 轉換成資料集 ] 模組,然後選取 [ 執行選取的]。

結果

  • 若要使用新名稱儲存產生的資料集,請以滑鼠右鍵按一下 [ 轉換成資料集 ] 的輸出,然後選取 [ 另存為資料集]。

範例

您可以看到如何在Azure AI 資源庫中使用 [轉換成資料集] 模組的範例:

  • CRM 範例:讀取共用資料集,並將資料集的複本儲存在本機工作區中。

  • 航班延誤範例:透過取代遺漏值來儲存已清除的資料集,讓您可以將它用於未來的實驗。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

  • 任何接受資料集做為輸入的模組,也都可接受 CSV、TSV 或 ARFF 格式的資料。 執行任何模組程式碼之前會對輸入進行前置處理,相當於在輸入上執行 [轉換成資料集] 模組。

  • 您無法從 SVMLight 格式轉換為資料集。

  • 指定自訂取代作業時會將搜尋和取代作業套用至完整值。不允許部分相符。 比方說,您可以將 3 取代為 -1,或取代為 33,但是您不能取代二位數中的 3,例如 35。

  • 在自訂取代作業中,如果您使用的任何取代字元不符合資料行的目前資料類型,則取代會失敗而無任何訊息。

  • 如果您需要儲存的資料會使用稀疏的數值資料,而且有遺漏值,則 Studio (傳統) 使用 Sparsevector ((這是 Math.NET 數值程式庫中的類別)支援稀疏陣列。 準備使用零且有遺漏值的資料,然後使用 [ 轉換成資料集 ] 和 [引數 SparseOutput ],並 移除 [零 ] = TRUE。

預期的輸入

名稱 類型 說明
資料集 資料表 輸入資料集

模組參數

名稱 範圍 類型 預設 描述
動作 List 動作方法 要套用至輸入資料集的動作

輸出

名稱 類型 說明
結果資料集 資料表 輸出資料集

另請參閱

資料格式轉換
A-Z 模組清單