Разделение данных

Секционирует строки набора данных на два разных набора.

Категория: Преобразование данных/выборка и разбиение

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этом разделе описывается использование модуля Split Data (разделение данных ) в машинное обучение Azure Studio (классическая модель) для разделения набора данных на два разных набора.

Этот модуль особенно полезен, если необходимо разделить данные на обучающие и проверочные наборы. Можно настроить способ разделения данных. Некоторые параметры поддерживают случайный выбор данных. другие объекты адаптированы для определенного типа данных или модели.

Настройка разделенных данных

Совет

Прежде чем выбрать режим разделения, ознакомьтесь со всеми параметрами, чтобы определить необходимый тип разбиения. При изменении режима разбиения все остальные параметры могут быть сброшены.

  1. Добавьте модуль Split Data (разделение данных ) в эксперимент в студии. Этот модуль можно найти в разделе " Преобразование данных" в категории " пример и разделение ".

  2. Режим разделения. Выберите один из следующих режимов в зависимости от типа данных и того, как его следует разделить. Каждый режим разделения имеет различные параметры. Подробные инструкции и примеры см. в следующих разделах.

    • Разбиение строк. Используйте этот параметр, если нужно просто разделить данные на две части. Можно указать процент данных, помещаемых в каждую разбивку, но по умолчанию данные делятся на 50-50.

      Можно также задать случайный выбор строк в каждой группе и использовать выборку стратифицированной. В стратифицированной выборки необходимо выбрать один столбец данных, для которого нужно равномерно распределять значения между двумя результирующими наборами.

    • Разделитель рекомендаций. всегда выбирайте этот параметр при подготовке данных для использования в системе рекомендаций. Он помогает разделить наборы данных на обучающие и проверочные группы, одновременно гарантируя, что важные значения, такие как пары пользователей или рейтинги, равномерно делятся между группами.

    • Разбиение регулярного выражения. Выберите этот параметр, если набор данных нужно разделить, проверив один столбец для значения.

      Например, при анализе тональности можно проверить наличие определенного названия продукта в текстовом поле, а затем разделить набор данных на строки с именем целевого продукта и без него.

    • Относительная разбивка выражения: Используйте этот параметр при каждом применении условия к числовому столбцу. Это может быть поле даты и времени, столбец, содержащий возраст или сумму в долларах, или даже процент. Например, может потребоваться разделить набор данных в зависимости от стоимости элементов, сгруппировать людей по возрастным диапазонам или разделить данные по календарной дате.

Требования

  • Разбиение данных может одновременно создавать не более двух наборов данных, и эти наборы должны быть монопольными.

    Поэтому при наличии сложного разбиения с несколькими условиями и выходами может потребоваться объединить несколько модулей разбиения данных .

    Кроме того, можно использовать оператор CASE и модуль « применение преобразования SQL ».

  • Этот модуль не удаляет данные или удаляет его из набора данных. Он просто делит данные в соответствии с заданными между первым и вторым выходными данными модуля.

  • Разделение данных для системы рекомендаций влечет за собой некоторые дополнительные требования. Как правило, набор данных может состоять только из пар "пользователь-элемент" или "Оценка пользовательского элемента". Поэтому модуль Split Data (разделение данных ) не может работать с наборами данных, имеющими более трех столбцов, чтобы избежать путаницы с данными типа компонента. Если набор данных содержит слишком много столбцов, может появиться следующее сообщение об ошибке:

    Ошибка 0022: число выбранных столбцов во входном наборе данных не равно x

    В качестве обходного решения можно использовать команду Выбрать столбцы в наборе данных , чтобы удалить некоторые столбцы, а затем добавить столбцы позднее с помощью инструкции Add Columns. Кроме того, если набор данных содержит много функций, которые необходимо использовать в модели, разделите набор данных с помощью другого параметра и обучите модель, используя функцию обучения , а не Matchbox рекомендации.

Примеры

Примеры использования модуля Split Data (разделение данных ) см. в Коллекция решений ии Azure:

  • Перекрестная проверка для двоичной классификации: набор данных для взрослых: для создания меньшего набора данных с меньшим числом случайных выборок применяется частота 20%. (Исходный набор данных переписи содержит более 30 000 строк, обучающий набор данных — около 6 500). Набор данных очищается от отсутствующих значений и передается в пять различных моделей для обучения и перекрестной проверки.

Технические примечания

Следующие требования применяются ко всем методам разбиения данных.

  • Входной набор данных должен содержать по крайней мере две строки, иначе возникает ошибка.
  • В случае использования параметра, указывающего желаемое число строк, его значение должно быть положительным целым числом, меньшим общего количества строк в наборе данных.
  • Если для числа явно указан процентный тип или используется строка со знаком «%», значение интерпретируется как значение в процентах. Все значения в процентах должны быть в диапазоне (0, 100), исключая значения 0 и 100.
  • Если указать число или процент в виде числа с плавающей запятой, которое меньше единицы, и не использовать символ «%», указанное число будет интерпретировано как пропорциональное значение.
  • Если вы используете параметр для разбиения стратифицированной, то выходные наборы данных можно разделить на подгруппы, выбрав столбец Strata.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Разбиваемый набор данных

Параметры модуля

Имя Type Диапазон Необязательно Описание По умолчанию
Режим разделения Режим разделения Разбиение строк, разбиение по рекомендациям, регулярное выражение или относительное выражение Обязательно Разделение строк Выберите метод разбиения набора данных

Выходные данные

Имя Type Описание
Выходной набор dataset1 Таблица данных Набор данных, содержащий выбранные строки
Выходной набор dataset2 Таблица данных Набор данных, содержащий все остальные строки

См. также раздел

Выборка и разбиение
Секционирование и выборка
Список модулей в алфавитном порядке