Разделение данных с помощью регулярного выражения

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать функцию разбиения регулярных выражений в модуле split Data модуля Машинное обучение Studio (классическая модель). Этот параметр полезен, если необходимо применить критерии фильтра к текстовому столбцу. Например, вы можете разделить набор данных на то, упоминается ли определенный продукт.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Можно использовать разбиение регулярного выражения для одного текстового столбца. Вы определяете регулярное выражение, включающее имя столбца текста, а затем устанавливаете условия, применяемые к столбцу, такие как «начинается с», «содержит» или «не содержит».

Общие сведения о секционировании данных для экспериментов машинного обучения см. в разделе разделение данных и секционирование и разбиение.

Другие параметры модуля Split Data (разделение данных ):

Использование регулярного выражения для разделения набора данных

  1. Добавьте модуль Split Data (разделение данных ) в эксперимент и подключите его как входные данные для набора данных, который необходимо разделить.

  2. В качестве режима разделения выберите Разбиение регулярного выражения.

  3. В поле регулярное выражение введите допустимое регулярное выражение. Некоторые примеры приведены здесь.

    Регулярное выражение применяется только к указанному столбцу, который должен быть строковым типом данных.

    Дополнительные сведения о создании регулярных выражений см. в разделе краткий справочник по языку регулярных выражений.

  4. Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.

    На основе заданного регулярного выражения набор данных делится на два набора строк: строки со значениями, которые соответствуют выражению и всем оставшимся строкам.

Примеры

В следующих примерах показано, как разделить набор данных с помощью параметра регулярного выражения .

Одно целое слово

Этот пример помещает в первый набор данных все строки, содержащие текст Gryphon в столбце Text , и помещает другие строки во второй выход разбиения данных:

    \"Text" Gryphon  

Substring

В этом примере выполняется поиск указанной строки в любой позиции во втором столбце набора данных, обозначенной здесь значением индекса 1. Сопоставление учитывает регистр.

(\1) ^[a-f]

Первый выходной набор данных будет содержать все строки, в которых индексный столбец начинается одним из следующих символов: a, b, c, d, e, f. Все остальные строки будут помещены во второй набор.

Совпадение строк по IP-адресам

В этом примере некоторые данные журнала сервера делятся на две категории для анализа: подключения за брандмауэром и подключения с IP-адресами за пределами брандмауэра. Регулярное выражение применяется к IP_Address полю (тип данных String ).

(\IP_Address) ^[10]

Первый выход содержит все адреса, начинающиеся с 10 .

См. также раздел

Выборка и разбиение
Секционирование и выборка