Разделение набора данных с помощью относительного выражения

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

В этой статье описывается, как использовать параметр "Разделение относительного выражения " в модуле Разделение данных Студии машинного обучения (классическая модель). Этот параметр полезен, если необходимо разделить набор данных на наборы данных для обучения и тестирования с помощью числовых выражений. Пример:

  • Возраст старше 40 против 40 или моложе 40 лет
  • Тестовый балл 60 или выше против менее 60
  • Ранговое значение 1 по сравнению со всеми остальными значениями

Примечание

Область применения: только Студия машинного обучения (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Чтобы разделить данные, выберите один числовой столбец в данных и определите выражение, используемое при оценке каждой строки. Относительное выражение должно включать имя столбца, значение и оператор, например больше и меньше, равно и не равно.

Этот параметр разделяет набор данных на две группы.

Общие сведения о секционирования данных для экспериментов машинного обучения см. в разделах Разделение данных и Секционирование и Разделение.

Другие параметры в модуле Разделение данных :

Использование относительного выражения для разделения набора данных

  1. Добавьте модуль Разделение данных в эксперимент в Stuio и подключите его в качестве входных данных к набору данных, который требуется разделить.

  2. Для параметра Режим разбиения выберите относительное разбиение выражений.

  3. В текстовом поле Реляционное выражение введите выражение, которое выполняет операцию числового сравнения для одного столбца:

    • Столбец содержит номера любого числового типа данных, включая типы данных даты и времени.

    • Относительные выражения могут ссылаться на имя только одного столбца.

    • Используйте символ амперсанда (&) для операции AND и символ канала (|) для операции OR.

    • Поддерживаются следующие операторы: <, >, <=, >=, ==, , !=

    • Нельзя группировать операции с помощью ( и ).

    Идеи см. в разделе Примеры .

  4. Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите Выполнить выбранный.

    Выражение делит набор данных на два набора строк: строки со значениями, которые соответствуют условию, и все оставшиеся строки.

    Если необходимо выполнить дополнительные операции разбиения, можно добавить второй экземпляр *Split Data или использовать модуль Apply SQL Transformation (Применить преобразование SQL ) и определить инструкцию CASE.

Примеры выражений relatve

В следующих примерах показано, как разделить набор данных с помощью параметра Относительное выражение в модуле Разделение данных :

Использование календарного года

По распространенному сценарию набор данных делится по годам. Следующее выражение выбирает все строки со значениями столбца Year более 2010.

\"Year" > 2010

Выражение даты должно учитывать все части даты, включенные в столбец данных, а формат дат в столбце данных должен быть согласованным.

Например, в столбце даты в формате mmddyyyyвыражение должно выглядеть примерно так:

\"Date" > 1/1/2010

Использование индексов столбцов

Следующее выражение показывает, как можно использовать индекс столбца, чтобы выбрать все строки в первом столбце набора данных, содержащего значения, которые меньше или равны 30, но не равны 20.

(\0)<=30 & !=20

Составная операция со значениями времени с использованием нескольких разбиений

Предположим, вам нужно разбить таблицу данных журнала, чтобы сгруппировать запросы, которые выполняются слишком долго. Вы можете использовать следующее относительное выражение в столбце , Elapsedчтобы получить запросы, которые выполнялись в течение 1 минуты.

\"Elapsed" >00:01:00

Чтобы получить запросы с временем отклика менее одной минуты, но более 30 секунд, добавьте еще один экземпляр разделения данных в выходные данные справа и используйте выражение, подобное следующему:

\"Elapsed" <:00:01:00 & >00:00:30

Разделение набора данных по значениям даты

Следующее относительное выражение разделяет набор данных с использованием значений даты в столбце dt1.

\"dt1" > 10-08-2015

Строки с датой больше 10-08-2015 добавляются в первый (левый) выходной набор данных.

Строки с датой 10.08.2015 или более ранней добавляются во второй (правый) выходной набор данных.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Ограничения

К относительным выражениям в наборе данных применяются следующие ограничения:

  • Относительные выражения можно применять только к числовым типам данных и типам данных даты и времени.
  • Относительные выражения могут ссылаться на имя не более чем одного столбца.
  • Используйте символ амперсанда (&) для операции AND и символ канала (|) для операции OR.
  • Для относительных выражений разрешены следующие операторы: <, >, <=, >=, ==, , !=
  • Операции группировки с круглыми скобками не поддерживаются.

См. также раздел

Выборка и разбиение
Секционирование и выборка