Разделение данных с помощью регулярного выражения

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать функцию разбиения регулярных выражений в модуле split Data модуля Машинное обучение Studio (классическая модель). Этот параметр полезен, если необходимо применить критерии фильтра к текстовому столбцу. Например, вы можете разделить набор данных на то, упоминается ли определенный продукт.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Можно использовать разбиение регулярного выражения для одного текстового столбца. Вы определяете регулярное выражение, включающее имя столбца текста, а затем устанавливаете условия, применяемые к столбцу, такие как «начинается с», «содержит» или «не содержит».

Общие сведения о секционировании данных для экспериментов машинного обучения см. в разделе разделение данных и секционирование и разбиение.

Другие параметры модуля Split Data (разделение данных ):

Разбиение данных с помощью относительных выражений: применение выражения к числовым данным.
Разделите наборы данных рекомендаций: разделите наборы данных, используемые в моделях рекомендаций. Набор данных должен содержать три столбца: элементы, пользователи и оценки.
Разделить по проценту от набора данных

Использование регулярного выражения для разделения набора данных

Добавьте модуль Split Data (разделение данных ) в эксперимент и подключите его как входные данные для набора данных, который необходимо разделить.
В качестве режима разделения выберите Разбиение регулярного выражения.
В поле регулярное выражение введите допустимое регулярное выражение. Некоторые примеры приведены здесь.

Регулярное выражение применяется только к указанному столбцу, который должен быть строковым типом данных.

Дополнительные сведения о создании регулярных выражений см. в разделе краткий справочник по языку регулярных выражений.
Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.

На основе заданного регулярного выражения набор данных делится на два набора строк: строки со значениями, которые соответствуют выражению и всем оставшимся строкам.

Примеры

В следующих примерах показано, как разделить набор данных с помощью параметра регулярного выражения .

Одно целое слово

Этот пример помещает в первый набор данных все строки, содержащие текст Gryphon в столбце Text , и помещает другие строки во второй выход разбиения данных:

    \"Text" Gryphon

Substring

В этом примере выполняется поиск указанной строки в любой позиции во втором столбце набора данных, обозначенной здесь значением индекса 1. Сопоставление учитывает регистр.

(\1) ^[a-f]

Первый выходной набор данных будет содержать все строки, в которых индексный столбец начинается одним из следующих символов: a, b, c, d, e, f. Все остальные строки будут помещены во второй набор.

Совпадение строк по IP-адресам

В этом примере некоторые данные журнала сервера делятся на две категории для анализа: подключения за брандмауэром и подключения с IP-адресами за пределами брандмауэра. Регулярное выражение применяется к IP_Address полю (тип данных String ).

(\IP_Address) ^[10]

Первый выход содержит все адреса, начинающиеся с 10 .

См. также раздел

Выборка и разбиение
Секционирование и выборка