Разделение данных

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Секционирует строки набора данных на два разных набора.

Категория: Преобразование данных/выборка и разбиение

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этом разделе описывается использование модуля Split Data (разделение данных ) в Машинное обучение Studio (классическая модель) для разделения набора данных на два разных набора.

Этот модуль особенно полезен, если необходимо разделить данные на обучающие и проверочные наборы. Можно настроить способ разделения данных. Некоторые параметры поддерживают случайный выбор данных. другие объекты адаптированы для определенного типа данных или модели.

Настройка разделенных данных

Совет

Прежде чем выбрать режим разделения, ознакомьтесь со всеми параметрами, чтобы определить необходимый тип разбиения. При изменении режима разбиения все остальные параметры могут быть сброшены.

Добавьте модуль Split Data (разделение данных ) в эксперимент в студии. Этот модуль можно найти в разделе Преобразование данных в категории Выборка и разбиение.
Режим разделения. Выберите один из следующих режимов в зависимости от типа данных и того, как его следует разделить. Каждый режим разделения имеет различные параметры. Подробные инструкции и примеры см. в следующих разделах.
- Разделение строк. Используйте этот режим, если нужно просто разделить данные на две части. Можно указать процент данных, помещаемых в каждую разбивку, но по умолчанию данные делятся на 50-50.
  
  Можно также задать случайный выбор строк в каждой группе и использовать стратифицированную выборку. При использовании стратифицированной выборки необходимо выбрать один столбец данных, для которого требуется равномерно распределить значения между двумя конечными наборами.
- Разделитель рекомендаций. всегда выбирайте этот параметр при подготовке данных для использования в системе рекомендаций. Он помогает разделить наборы данных на обучающие и проверочные группы, одновременно гарантируя, что важные значения, такие как пары пользователей или рейтинги, равномерно делятся между группами.
- Разделение регулярного выражения. Выберите этот параметр, если набор данных нужно разделить, проверив один столбец на определенное значение.
  
  Например, при анализе тональности можно проверить наличие определенного названия продукта в текстовом поле, а затем разделить набор данных на строки с именем целевого продукта и без него.
- Разбиение относительного выражения. Используйте этот режим, чтобы применить условие к числовому столбцу. Это может быть поле даты и времени, столбец, содержащий возраст или сумму в долларах, или даже процент. Например, может потребоваться разделить набор данных в зависимости от стоимости элементов, сгруппировать людей по возрастным диапазонам или разделить данные по календарной дате.

Требования

Разбиение данных может одновременно создавать не более двух наборов данных, и эти наборы должны быть монопольными.

Поэтому при наличии сложного разбиения с несколькими условиями и выходами может потребоваться объединить несколько модулей разбиения данных .

кроме того, можно использовать оператор CASE и модуль преобразования «применить SQL ».
Этот модуль не удаляет данные или удаляет его из набора данных. Он просто делит данные в соответствии с заданными между первым и вторым выходными данными модуля.
Разделение данных для системы рекомендаций влечет за собой некоторые дополнительные требования. Как правило, набор данных может состоять только из пар "пользователь-элемент" или "Оценка пользовательского элемента". Поэтому модуль Split Data (разделение данных ) не может работать с наборами данных, имеющими более трех столбцов, чтобы избежать путаницы с данными типа компонента. Если набор данных содержит слишком много столбцов, может появиться следующее сообщение об ошибке:

Ошибка 0022: число выбранных столбцов во входном наборе данных не равно x

В качестве обходного решения можно использовать команду Выбрать столбцы в наборе данных , чтобы удалить некоторые столбцы, а затем добавить столбцы позднее с помощью инструкции Add Columns. Кроме того, если набор данных содержит много функций, которые необходимо использовать в модели, разделите набор данных с помощью другого параметра и обучите модель, используя функцию обучения , а не Matchbox рекомендации.

Примеры

Примеры использования модуля Split Data (разделение данных ) см. в Коллекция решений ии Azure:

Перекрестная проверка для двоичной классификации: набор данных для взрослых: для создания меньшего набора данных с меньшим числом случайных выборок применяется частота 20%. (Исходный набор данных переписи содержит более 30 000 строк, обучающий набор данных — около 6 500). Набор данных очищается от отсутствующих значений и передается в пять различных моделей для обучения и перекрестной проверки.

Технические примечания

Следующие требования применяются ко всем методам разбиения данных.

Входной набор данных должен содержать по крайней мере две строки, иначе возникает ошибка.
В случае использования параметра, указывающего желаемое число строк, его значение должно быть положительным целым числом, меньшим общего количества строк в наборе данных.
Если для числа явно указан процентный тип или используется строка со знаком «%», значение интерпретируется как значение в процентах. Все значения в процентах должны быть в диапазоне (0, 100), исключая значения 0 и 100.
Если указать число или процент в виде числа с плавающей запятой, которое меньше единицы, и не использовать символ «%», указанное число будет интерпретировано как пропорциональное значение.
Если вы используете параметр для разбиения стратифицированной, то выходные наборы данных можно разделить на подгруппы, выбрав столбец Strata.

Ожидаемые входные данные

Имя	Тип	Описание
Dataset	Таблица данных	Разбиваемый набор данных

Параметры модуля

Имя	Type	Диапазон	Необязательно	Описание	Значение по умолчанию
Режим разделения	Режим разделения	Разбиение строк, разбиение по рекомендациям, регулярное выражение или относительное выражение	Обязательно	Разделение строк	Выберите метод разбиения набора данных

Выходные данные

Имя	Тип	Описание
Выходной набор dataset1	Таблица данных	Набор данных, содержащий выбранные строки
Выходной набор dataset2	Таблица данных	Набор данных, содержащий все остальные строки

См. также раздел

Выборка и разбиение
Секционирование и выборка
Список модулей в алфавитном порядке