使用正則運算式分割資料

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

本文描述如何在機器學習 Studio (傳統) 的分割資料模組中使用正則運算式分割選項。 當您需要將篩選準則套用至文字資料行時,這個選項非常有用。 例如,您可能會將資料集除以是否有提及特定的產品。

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

您可以在單一文字資料行上使用 正則運算式分割 。 您可以定義包含文字資料行名稱的正則運算式,然後設定適用于資料行的條件,例如「開頭為」、「包含」或「不包含」。

如需機器學習服務實驗之資料分割的一般資訊,請參閱 分割資料 和分割區 和分割

分割資料模組中的其他選項:

使用正則運算式來分割資料集

  1. 將 [ 分割資料 ] 模組新增至您的實驗,並將它連接為您要分割的資料集輸入。

  2. 針對分割模式,請選取 [規則運算式分割]。

  3. 在 [ 正則運算式 ] 方塊中,輸入有效的正則運算式。 這裡提供一些範例。

    正則運算式只會套用至指定的資料行,該資料行必須是字串資料類型。

    如需撰寫正則運算式的協助,請參閱 正則運算式語言-快速參考

  4. 執行實驗,或以滑鼠右鍵按一下模組,然後選取 [ 執行選取]。

    根據您提供的正則運算式,資料集會分割成兩個數據列集:值符合運算式的資料列和所有剩餘的資料列。

範例

下列範例示範如何使用 正則運算式 選項來分割資料集。

一個完整的詞

此範例會將包含資料行中文字 Gryphon 的所有資料列 Text 放入第一個資料集,並將其他資料列放入 分割資料的第二個輸出中:

    \"Text" Gryphon  

Substring

此範例會在資料集的第二個數據行內的任何位置尋找指定的字串,並以索引值1表示。 該比對會區分大小寫。

(\1) ^[a-f]

第一個結果資料集包含索引資料行開頭為以下字元的所有資料列:abcdef。 所有其他資料列都會導向至第二個輸出。

IP 位址的字串相符

此範例會將一些伺服器記錄資料分割成兩個類別以供分析:防火牆後方的連線,以及與防火牆外部 IP 位址的連線。 正則運算式會套用至 IP_Address (字串 資料類型) 的欄位。

(\IP_Address) ^[10]

第一個輸出包含開頭為 10 的所有位址。

另請參閱

取樣和分割
資料分割和取樣