Преобразование в набор данных

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

преобразует входные данные в формат внутреннего набора данных, используемый Microsoft Машинное обучение

Категория: преобразования форматов данных

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль convert to Dataset в Машинное обучение Studio (классическая модель) для преобразования любых данных, которые могут потребоваться для эксперимента, с внутренним форматом, используемым в Studio (классическая модель).

в большинстве случаев преобразование не требуется, поскольку Машинное обучение неявно преобразует данные в собственный формат набора данных при выполнении любой операции с данными.

Однако сохранение данных в формате набора данных рекомендуется, если выполнена какая-либо нормализация или очистка набора данных и нужно обеспечить использование изменений в дальнейших экспериментах.

Примечание

Преобразование в набор данных изменяет только формат данных, но не сохраняет новую копию данных в рабочей области. Чтобы сохранить набор данных, дважды щелкните порт вывода, выберите Сохранить как набор данныхи введите новое имя.

Использование модуля "Преобразование в набор данных"

Рекомендуется использовать модуль редактирования метаданных для подготовки набора данных перед использованием инструкции Convert to DataSet. Можно добавлять или изменять имена столбцов, настраивать типы данных и т. д.

  1. Добавьте модуль преобразовать в набор данных в свой эксперимент. этот модуль можно найти в категории преобразования форматов данных в Машинное обучение Studio (классическая модель).

  2. Подключите его к любому модулю, который выводит набор данных.

    Так как данные являются табличными, их можно преобразовать в набор данных. сюда входят данные, загруженные с помощью импорта данных, данные, созданные с помощью команды ввод данных вручную, данные, создаваемые кодом в пользовательских модулях, наборы данных, преобразованные с помощью инструкции applytransform, или наборы данных, созданные или измененные с помощью преобразования «применить SQL».

  3. В раскрывающемся списке действие укажите, хотите ли вы выполнить очистку данных перед сохранением набора данных:

    • Нет: Используйте данные как есть.

    • Сетмиссингвалуе: укажите заполнитель, который вставляется в набор данных везде, где имеется отсутствующее значение. Заполнитель по умолчанию — символ вопросительного знака (?), но можно использовать настраиваемый параметр отсутствующих значений для ввода другого значения.

    • ReplaceValues. Используйте этот параметр, чтобы указать одно точное значение, которое должно быть заменено любым другим точным значением. Например, если данные содержат строку obs , используемую в качестве заполнителя для отсутствующих значений, можно указать пользовательскую операцию замены, используя следующие параметры:

      1. Установите для параметра заменить на Пользовательский

      2. В поле настраиваемое значениевведите значение, которое необходимо найти. В этом случае следует ввести obs .

      3. В поле новое значениевведите новое значение, чтобы заменить исходную строку. В этом случае вы можете ввести ?

    Обратите внимание, что операция ReplaceValues применяется только к точным совпадениям. К примеру, эти строки не будут затронуты: obs., obsolete.

    • Спарсеаутпут: указывает, что набор данных является разреженным. Создавая разреженный вектор данных, можно убедиться, что недостающие значения не влияют на распределение разреженных данных. После выбора этого параметра необходимо указать, как должны обрабатываться отсутствующие значения и нулевые значения.

    Чтобы удалить любое значение, отличное от нуля, нажмите кнопку Удалить и введите одно значение для удаления. Можно удалить отсутствующие значения или задать пользовательское значение для удаления из вектора. Будут удалены только точные соответствия. Например, если ввести x в текстовое поле удалить значение , это не повлияет на строку xx .

    По умолчанию параметр Удалить нули имеет значение True , означающее, что при создании разреженного столбца удаляются все нулевые значения.

  4. Запустите эксперимент или щелкните правой кнопкой мыши модуль преобразовать в набор данных и выберите пункт Выполнить выбранное.

Результаты

  • Чтобы сохранить результирующий набор данных с новым именем, щелкните правой кнопкой мыши выход преобразовать в набор данных и выберите Сохранить как набор данных.

Примеры

Вы можете увидеть примеры использования модуля преобразования в набор данных в Коллекция решений ии Azure:

  • Пример CRM. считывает данные из общего набора данных и сохраняет копию набора данных в локальной рабочей области.

  • Пример задержки рейса: сохраняет набор данных, который был очищен, заменяя отсутствующие значения, чтобы его можно было использовать для будущих экспериментов.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

  • Любой модуль, который принимает набор данных в качестве входных данных, также может использовать данные в формате CSV, TSV или ARFF. Перед выполнением любого кода модуля выполняется предварительная обработка входных данных, эквивалентная запуску модуля Преобразование в набор данных на входе.

  • Данные в формате SVMLight невозможно преобразовать в набор данных.

  • При указании пользовательской операции замены операция поиска и замены применяется к полным значениям. Частичные совпадения недопустимы. Можно заменить 3 на –1 или 33, но нельзя заменить 3 на двухзначное число, например 35.

  • При пользовательских операциях замены замена автоматически завершится ошибкой, если использовать в качестве альтернативы любой символ, не соответствующий текущему типу данных столбца.

  • Если необходимо сохранить данные, в которых используются числовые данные, имеющие разреженные и отсутствующие значения, то внутри Studio (классическая модель) поддерживаются разреженные массивы с помощью Спарсевектор, который является классом в числовой библиотеке Math.NET. Подготовьте данные, использующие нули и отсутствующие значения, а затем используйте Convert to DataSet с аргументами Спарсеаутпут и удалите нули = true.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Действие Список Метод действия Нет Действие, которое необходимо применить к входному набору данных

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Выходной набор данных

См. также раздел

Преобразование формата данных
Список модулей в алфавитном порядке