Преобразование в набор данных

В настоящей статье описано использование компонента "Преобразование в набор данных" в конструкторе Машинного обучения Azure для преобразования любых данных конвейера во внутренний формат конструктора.

В большинстве случаев преобразование не требуется. Машинное обучение Azure неявно преобразует данные в собственный формат набора данных при выполнении любой операции с данными.

Рекомендуем сохранять данные в формате набора данных, если выполнена какая-либо нормализация или очистка набора данных и нужно обеспечить использование изменений в других конвейерах.

Примечание

Модуль "Преобразование в набор данных" изменяет только формат данных. Он не сохраняет новую копию данных в рабочей области. Чтобы сохранить набор данных, дважды щелкните порт вывода и выберите Сохранение набора данных, а затем введите новое имя.

Использование модуля "Преобразование в набор данных"

Рекомендуем использовать компонент Изменение метаданных для подготовки набора данных к использованию в модуле "Преобразование в набор данных". При необходимости можно добавлять или изменять имена столбцов, изменять типы данных и вносить другие изменения.

  1. Добавьте компонент "Преобразование в набор данных" в конвейер. Этот компонент можно найти в категории Преобразование данных в конструкторе.

  2. Подключите его к любому компоненту, который выводит набор данных.

    Так как данные являются табличными, их можно преобразовать в набор данных. Сюда входят данные, загруженные с помощью импорта данных, данные, созданные с помощью ввода данных вручную, или наборы данных, преобразованные благодаря применению преобразования.

  3. В раскрывающемся списке Действие укажите, нужно ли выполнять очистку данных перед сохранением набора данных.

    • None. Используйте данные как есть.

    • SetMissingValue. Задайте для определенного значения отсутствующее значение в наборе данных. Заполнитель по умолчанию — вопросительный знак (?), но можно использовать параметр Настраиваемое отсутствующее значение для ввода другого значения. Например, если ввести такси для настраиваемого отсутствующего значения, все экземпляры такси в наборе данных будут заменены на отсутствующее значение.

    • ReplaceValues. Используйте этот параметр, чтобы указать одно точное значение, которое должно быть заменено любым другим точным значением. Отсутствующие или настраиваемые значения можно заменить, задав метод Replace:

      • Missing. Выберите этот параметр, чтобы заменить отсутствующие значения во входном наборе данных. В поле Новое значение введите значение для замены отсутствующего значения.
      • Custom. Выберите этот параметр, чтобы заменить настраиваемые значения во входном наборе данных. В поле Настраиваемое значение введите значение, которое необходимо найти. Например, если данные содержат строку obs, используемую в качестве заполнителя для отсутствующих значений, введите obs. В поле Новое значение введите новое значение для замены исходной строки.

    Обратите внимание, что операция ReplaceValues применяется только к точным совпадениям. К примеру, эти строки не будут затронуты: obs., obsolete.

  4. Отправьте конвейер.

Результаты

  • Чтобы сохранить полученный набор данных с новым именем, на правой панели компонента выберите значок регистрации набора данных на вкладке Выходные данные.

Технические примечания

  • Любой модуль, который принимает набор данных в качестве входных данных, также может использовать данные CSV-файла или TSV-файла. Входные данные предварительно обрабатываются перед выполнением любого кода компонента. Предварительная обработка эквивалентна запуску модуля "Преобразование в набор данных" для входных данных.

  • Данные в формате SVMLight невозможно преобразовать в набор данных.

  • При указании пользовательской операции замены операция поиска и замены применяется к полным значениям. Частичные совпадения не допускаются. Например, можно заменить 3 на –1 или 33, но нельзя заменить 3 на двухзначное число, такое как 35.

  • При пользовательских операциях замены замена автоматически завершится ошибкой, если использовать в качестве альтернативы любой символ, не соответствующий текущему типу данных столбца.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.