分割資料

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

將資料集的資料列分割成兩組獨特資料

類別: 資料轉換/取樣和分割

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本主題描述如何使用機器學習 Studio (傳統) 中的分割資料模組,將資料集分成兩個不同的集合。

當您需要將資料分隔成定型集和測試集時,此模組特別有用。 您也可以自訂資料的分割方式。 某些選項支援隨機的資料;其他則是針對特定資料類型或模型類型而量身訂做。

如何設定分割資料

提示

選擇分割模式之前,請先閱讀所有選項,以決定所需的分割類型。 如果您變更分割模式,則可以重設所有其他選項。

  1. 將 [ 分割資料 ] 模組新增至您在 studio 中的實驗。 您可以在 [ 資料轉換] 下的 [ 範例和分割 ] 分類中找到此模組。

  2. 分割模式:根據您擁有的資料類型以及您要如何分割,選擇下列其中一個模式。 每個分割模式的選項各有不同。 如需詳細的指示和範例,請按一下下列主題。

    • 分割資料列:如果您只想要將資料分割成兩個部分,請使用此選項。 您可以指定要放入每個分割中的資料百分比,但根據預設,資料會分割為50-50。

      您也可以將每個群組中所選取的資料列隨機化,並使用分層取樣。 在分層取樣中,您必須選取一個資料行的資料,這些資料是您想要將其值平均地分配給兩個結果資料集的資料。

    • 推薦分割:如果您要準備要在推薦系統中使用的資料,請一律選擇這個選項。 它可協助您將資料集分割成定型和測試群組,同時確保重要的值(例如使用者-專案配對或評等)會在群組之間平均分配。

    • 規則運算式分割:當您想要透過測試單一資料行的值來分割資料集時,請選擇此選項。

      例如,如果您要分析情感,您可以在文字欄位中檢查特定產品名稱是否存在,然後將資料集分割成具有目標產品名稱的資料列,而不是。

    • 相對運算式分割:每當您想要將條件套用至數字資料行時,請使用此選項。 此數目可以是日期/時間欄位、包含年齡或金額的資料行,或甚至是百分比。 例如,您可能會想要根據專案的成本來分割資料集、依年齡範圍將人員分組,或依行事曆日期來分隔資料。

規格需求

  • 分割資料 一次最多可以建立兩個資料集,而且這些集合必須是專屬的。

    因此,如果您有多個條件和輸出的複雜分割,則您可能需要將多個 分割資料 模組串連在一起。

    或者,您也可以使用 CASE 語句和Apply SQL 轉換模組。

  • 此模組不會刪除資料或將資料從資料集移除;它只會將在模組的第一個和第二個輸出中指定的資料分割。

  • 分割推薦系統的資料需要一些額外的需求。 一般而言,資料集只能由使用者-專案配對或使用者-專案-評等三合一組成。 因此, 分割資料 模組無法在具有三個以上資料行的資料集上運作,以避免與功能類型資料混淆。 如果您的資料集包含太多資料行,您可能會收到此錯誤:

    錯誤0022:輸入資料集中選取的資料行數目不等於 x

    因應措施是,您可以使用 [ 選取資料集中的資料行 ] 來移除部分資料行,然後使用 [ 加入資料行] 稍後再加入資料行。 或者,如果您的資料集有多個您想要在模型中使用的功能,請使用不同的選項來分割資料集,並使用 定型模型 來定型模型,而不是 定型 Matchbox 推薦

範例

如需如何使用「 分割資料 」模組的範例,請參閱 Azure AI 資源庫

  • 二元分類的交叉驗證:成人資料集:會套用20% 的取樣率來建立較小的隨機取樣資料集。 (原始人口普查資料集有超過 30,000 個資料列,定型資料集有大約 6500 的資料列)。 此資料集會清除遺漏值,然後傳遞給五個不同的模型進行定型和交叉驗證。

技術說明

下列需求適用于 分割資料的所有用途:

  • 輸入資料集必須包含至少兩個數據列,否則會引發錯誤。
  • 如果您使用此選項來指定需要的資料列數,指定的數字必須是正整數,而且數字必須小於資料集的資料列總數。
  • 如果您指定的數字是百分比,或使用包含 "%" 字元的字串,則以百分比解讀此值。 所有的百分比值必須在範圍 (0, 100) 內,不含 0 和 100。
  • 如果您指定的數字或百分比是小於 1 的浮點數,而且不使用百分比符號 (%),則以比例值解讀數字。
  • 如果您使用分層分割的選項,則可以藉由選取分層資料行,以子群組進一步分割輸出資料集。

預期的輸入

名稱 類型 說明
資料集 資料表 分割的資料集

模組參數

名稱 類型 範圍 選用 描述 預設
分割模式 分割模式 分割資料列、推薦分割、正則運算式或相對運算式 必要 分割資料列 選擇分割資料集的方法

輸出

名稱 類型 說明
結果 dataset1 資料表 包含選定資料列的資料集
結果 dataset2 資料表 包含所有其他資料列的資料集

另請參閱

取樣和分割
資料分割和取樣
A-Z 模組清單