正規表現を使用したデータの分割

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、Machine Learning Studio (クラシック) のデータの分割モジュールで正規表現分割オプションを使用する方法について説明します。 このオプションは、テキスト列にフィルター条件を適用する必要がある場合に便利です。 たとえば、特定の製品が記載されているかどうかによってデータセットを分割できます。

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

正規表現の分割は、1つのテキスト列で使用できます。 テキスト列の名前を含む正規表現を定義してから、列に適用する条件を設定します。たとえば、"先頭に"、"contains"、"は含まれない" などです。

機械学習の実験でのデータのパーティション分割に関する一般的な情報については、「データとパーティションの分割と分割」を参照してください。

データの分割モジュールのその他のオプション:

正規表現を使用してデータセットを分割する

  1. ご利用の実験に Split Data (データの分割) モジュールを追加し、それを入力として分割するデータセットに接続します。

  2. [Splitting mode]\(分割モード\) として、[Regular expression split]\(正規表現分割\) を選択します。

  3. [Regular expression]\(正規表現\) ボックスで、有効な正規表現を入力します。 ここでは、いくつかの例を示します。

    正規表現は、指定された列にのみ適用されます。この列は、文字列データ型である必要があります。

    正規表現の作成については、「 正規表現言語-クイックリファレンス」を参照してください。

  4. 実験を実行するか、モジュールを右クリックして [ 選択したものを実行] を選択します。

    指定した正規表現に基づき、データセットは 2 つの行セットに分割されます。一方は、式と一致する値を含む行のセット、もう一方は残りのすべての行のセットです。

次の例では、 正規表現 オプションを使用してデータセットを分割する方法を示します。

1 単語単位

この例では、列 Text 内のテキスト Gryphon を含むすべての行を最初のデータセットに格納し、他の行を分割データの2番目の出力に配置します。

    \"Text" Gryphon  

Substring

この例では、インデックス値が1である、データセットの2番目の列内の任意の位置で、指定された文字列を検索します。 一致照合では、大文字と小文字が区別されます。

(\1) ^[a-f]

最初の結果データセットには、インデックス列が abcdef のいずれかの文字から始まるすべての行が含まれます。 他のすべての行は、2 番目の出力に送られます。

IP アドレスでの文字列の一致

この例では、一部のサーバーログデータを分析用に2つのカテゴリに分割します。つまり、ファイアウォールの内側にある接続と、ファイアウォールの外側にある IP アドレスを使用した接続です。 正規表現は、フィールド (文字列データ型) に IP_Address 適用されます。

(\IP_Address) ^[10]

最初の出力には、で 10 始まるすべてのアドレスが含まれます。

こちらもご覧ください

サンプルおよび分割
パーティションとサンプル