Разделение данных с помощью параметра разделения строк

Статья
03/05/2020

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать параметр разбиения строк в модуле split Data модуля Машинное обучение Studio (классическая модель). Этот параметр особенно полезен, если необходимо разделить наборы данных, используемые для обучения и тестирования, случайным образом или по некоторым критериям.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Параметр разбиение строк поддерживает как случайные, так и стратифицированной разбиения. Например, можно указать разбиение 70-30 или 10-90 с целевой переменной в обоих наборах данных.

Общие сведения о секционировании данных для экспериментов машинного обучения см. в разделе разделение данных и секционирование и разбиение.

Другие параметры модуля Split Data (разделение данных ) поддерживают различные способы разделения данных:

Разбиение данных с помощью регулярных выражений: применение регулярного выражения к одному текстовому столбцу и разделение набора данных на основе результатов.
Разбиение данных с помощью относительных выражений: применение выражения к числовому столбцу и разделение набора данных на основе результатов
Разделите наборы данных рекомендаций: разделите наборы данных, используемые в моделях рекомендаций. Набор данных должен содержать три столбца: элементы, пользователи и оценки.

Разделение набора данных на две группы

Добавьте модуль Split Data (разделение данных ) в эксперимент в студии (классическая модель) и подключите набор данных, который необходимо разделить.
В режиме разделениявыберите разбить строки.
Часть строк в первом выходном наборе данных. Используйте этот параметр, чтобы определить, сколько строк попадают в первый (левый) выход. Все остальные строки будут переданы на второй (правый) выход.

Отношение представляет процент строк, отправленных в первый выходной набор данных, поэтому необходимо ввести десятичное число от 0 до 1.

Например, если ввести значение 0,75, набор данных будет разделен в соотношении 75:25, т. е. 75 % строк будет отправлено в первый выходной набор данных и 25 % — во второй.
Чтобы задать случайное распределение данных по двух группам, выберите параметр Случайное разбиение. Это предпочтительный вариант при создании обучающих и проверочных наборов данных.
Случайное начальноезначение: Введите неотрицательное целое число, чтобы инициализировать псевдослучайное последовательность экземпляров для использования. Это начальное значение по умолчанию используется во всех модулях, генерирующих случайные числа.

Указание начального значения делает результаты обычно воспроизводимыми. Чтобы повторить результаты операции разбиения, следует указать начальное значение для генератора случайных чисел. В противном случае этому значению по умолчанию присваивается 0, а это означает, что начальное значение случайной последовательности определяется системным временем. В результате распределение данных может немного отличаться для каждого разбиения.
Стратифицированное разбиение. Установите для этого параметра значение true, чтобы оба выходных набора данных содержали репрезентативную выборку значений в столбце Слой или Ключ стратификации.

При использовании стратифицированной выборки данные делятся таким образом, чтобы каждый выходной набор данных получал примерно одинаковый процент от каждого целевого значения. Например, может потребоваться убедиться в том, что обучающий и проверочный наборы приблизительно сбалансированы по отношению к результату, или относительно другого столбца, например пола.
Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.

Примеры

В следующих примерах показано, как выполнять простые разбиения, используя режим разбиения строк .

Разделить на две равные части

Добавьте модуль Split Data (разделение данных ) после набора данных без других изменений. По умолчанию модуль разбивает набор данных на две равные части. Для данных с нечетным числом строк остаток помещается во второй выходной набор данных.

Разделить на сторонние

Предположим, что необходимо разделить набор данных на две части, используя треть из данных, используемых для обучения, и остаток для тестирования или дополнительных разбиений.

Для этого добавьте модуль Split Data (разделение данных ) и установите доли строк в первом выводе на 0,33. Второй выходной набор данных будет содержать оставшиеся две трети данных.

Чтобы разделить второй результат на равные части, добавьте еще один экземпляр модуля Split Data (разделение данных ), а на этот раз используйте значение по умолчанию для разбиения 50-50.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

Этот модуль требует, чтобы набор данных содержал по крайней мере две строки. в противном случае возникает ошибка.
В случае использования параметра, указывающего желаемое число строк, его значение должно быть положительным целым числом, меньшим общего количества строк в наборе данных.
Все процентные значения должны находиться в диапазоне от 0 до 1.
Если указать число или процент в виде числа с плавающей запятой меньше единицы и не использовать символ процента (%), то число интерпретируется как пропорциональное значение.

Дополнительные требования для выборки стратифицированной

Столбец Strata может содержать только Номинальные данные или сведения о категориях. Если столбец содержит непрерывные числовые данные, возникает сообщение об ошибке.
Столбец с слишком большим количеством уникальных значений не является хорошим кандидатом для соотношением. Вы можете попытаться свернуть некоторые категории или сгруппировать значения заранее.

См. также раздел

Пример и разбиение секций и примеров