使用正則運算式分割資料

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

本文描述如何在機器學習 Studio (傳統) 的分割資料模組中使用正則運算式分割選項。當您需要將篩選準則套用至文字資料行時，這個選項非常有用。例如，您可能會將資料集除以是否有提及特定的產品。

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

您可以在單一文字資料行上使用 正則運算式分割 。您可以定義包含文字資料行名稱的正則運算式，然後設定適用于資料行的條件，例如「開頭為」、「包含」或「不包含」。

如需機器學習服務實驗之資料分割的一般資訊，請參閱分割資料和分割區和分割。

分割資料模組中的其他選項：

使用正則運算式來分割資料集

將 [ 分割資料 ] 模組新增至您的實驗，並將它連接為您要分割的資料集輸入。
針對分割模式，請選取 [規則運算式分割]。
在 [ 正則運算式 ] 方塊中，輸入有效的正則運算式。這裡提供一些範例。

正則運算式只會套用至指定的資料行，該資料行必須是字串資料類型。

如需撰寫正則運算式的協助，請參閱正則運算式語言-快速參考。
執行實驗，或以滑鼠右鍵按一下模組，然後選取 [ 執行選取]。

根據您提供的正則運算式，資料集會分割成兩個數據列集：值符合運算式的資料列和所有剩餘的資料列。

下列範例示範如何使用 正則運算式 選項來分割資料集。

此範例會將包含資料行中文字 Gryphon 的所有資料列 Text 放入第一個資料集，並將其他資料列放入 分割資料的第二個輸出中：

    \"Text" Gryphon

此範例會在資料集的第二個數據行內的任何位置尋找指定的字串，並以索引值1表示。該比對會區分大小寫。

(\1) ^[a-f]

第一個結果資料集包含索引資料行開頭為以下字元的所有資料列：a、b、c、d、e、f。所有其他資料列都會導向至第二個輸出。

此範例會將一些伺服器記錄資料分割成兩個類別以供分析：防火牆後方的連線，以及與防火牆外部 IP 位址的連線。正則運算式會套用至 IP_Address (字串資料類型) 的欄位。

(\IP_Address) ^[10]

第一個輸出包含開頭為 10 的所有位址。