Преобразование данных — пример и разбиение

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описываются модули в Машинное обучение Studio (классическая модель), которые можно использовать для секционирования или выборки данных.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Разделение и выборка наборов данных являются важными задачами в машинном обучении. Например, распространенной практикой является разделение данных на обучающие и проверочные наборы, которые помогут оценить модель на контрольном наборе данных. Выборка также все еще важна в эпохе больших данных, чтобы обеспечить равномерное распределение классов в обучающих данных. Выборка также гарантирует, что обработка большего количества данных не требуется.

для настройки способа разделения или выборки наборов данных можно использовать модули Машинное обучение Studio (классические).

  • Фильтрация обучающих данных на основе атрибута в данных.
  • Выполните выборку стратифицированной, чтобы разделить переменную класса между n числами групп.
  • Разделение исходных данных на обучающий и проверочный набор данных с помощью настраиваемого соотношения.
  • Применение регулярных выражений к данным для фильтрации недопустимых значений.

Выбор правильной операции: разделение или выборка

Машинное обучение Studio (классическая модель) предоставляет два модуля, которые инкапсулируют задачи. Модули похожи, но они используют разные функции и предоставляют дополнительные функциональные возможности. Скорее всего, вы будете использовать оба модуля в эксперименте, чтобы получить правильный объем и правильный набор данных.

Далее мы сравниваем модуль Split Data (разделение данных ) и модуль Partition и Sample , чтобы увидеть, для каких задач обычно используется каждый модуль.

Использование модуля Split Data

  • Разделите данные на две группы. Используйте модуль Split Data (разделение данных ). Модуль создает ровно два разбиения данных. Можно указать условие, в котором данные разбиваются, и пропорции данных, помещаемые в каждое подмножество. Разбиение данных всегда сохраняет подмножество данных, не соответствующих условиям.
  • Равномерное выделение значений меток для наборов данных. Параметр для стратифи в указанном столбце поддерживается обоими модулями. Однако, если вы хотите создать два набора данных и в основном интересуете столбец Label, то модуль Split Data (разделить данные ) является быстрым решением.

Пример использования модуля Split Data

Предположим, вы импортировали очень большой набор данных из CSV-файла. Набор данных содержит демографические данные клиентов. Вы хотите создать разные модели для клиентов в разных странах, поэтому вы решили разделить данные с помощью значения Country-Region столбца. Ниже приведены действия, которые необходимо выполнить для выполнения этой задачи.

  1. Добавьте модуль Split Data (разделение данных ), а затем укажите выражение для Country-Region поля. Оставшаяся часть данных доступна во вторичном выводе.
  2. Добавьте еще один экземпляр модуля Split Data (разделение данных ).
  3. Повторите шаги 1 и 2. Укажите другую страну в выражении для каждой итерации.

Модуль Split Data (разделение данных ) поддерживает как регулярные выражениядля текстовых данных, так и относительные выражениядля числовых данных.

Модуль Split Data (разделение данных ) также предоставляет расширенные функциональные возможности, которые можно использовать для разделения специализированных данных. Используйте функциональные возможности для создания моделей рекомендаций и создания прогнозов.

Использование модуля Partition и Sample

  • Выборка. Всегда используйте модуль Partition и Sample . Модуль предоставляет несколько настраиваемых методов выборки, включая несколько параметров для стратифицированной выборки.
  • Назначение вариантов нескольким группам. Используйте параметры распределить для сгиба или выборки по сгибу в модуле секции и образец .
  • Возвращает только подмножество данных. Используйте модуль Partition и Sample . Модуль предоставляет указанное подмножество для основных выходных данных. Остальные данные доступны во вторичном выводе.
  • Получение только первых 2 000 строк набора данных. Используйте модуль Partition и Sample . Выберите параметр head (головной ). Это особенно удобно при тестировании нового эксперимента и необходимости запускать короткие пробные версии рабочего процесса.

Пример использования модуля Partition и Sample

Модуль Partition и Sample может создавать несколько секций данных, а не только два. В то же время он может выполнять различные операции выборки.

Например, предположим, что необходимо получить всего 10 процентов данных, обеспечивая то же самое распределение целевого атрибута, что и в исходных данных. Ниже приведены действия, которые необходимо выполнить для выполнения этой задачи.

  1. Добавьте модуль Partition и Sample .
  2. Выберите режим выборки и укажите 10%.
  3. Выберите параметр выборка стратифицированной, а затем выберите столбец, содержащий целевой атрибут.

Если не нужно размещать все данные, используйте модуль Partition и Sample . Остальные данные по-прежнему находятся в рабочей области, но их не нужно обрабатывать в рамках эксперимента.

  • Увеличьте количество редких вариантов в примере или Перераспределите варианты для целевого значения: используйте модуль смоте .
  • Уменьшение размерности путем поиска сочетания функций, которые лучше всего представляют пространство данных: используйте модуль анализа основных компонентов .
  • создание компактных функций на основе анализа функций и счетчиков: используйте модуль Обучение с подсчетами .
  • Создание представления или проекции с использованием только указанных столбцов; удаление или скрытие столбцов в наборе данных: используйте модули « выбор столбцов в наборе данных » и «применить SQL модулей преобразования ».
  • применение более сложных фильтров данных, группирований или преобразований: использование модулей выполнения R Script и Apply SQL .

Список модулей

Эта категория включает в себя следующие модули.

См. также раздел