Преобразование в набор данных

Преобразует входные данные во внутренний формат набора данных, используемый для Машинного обучения Microsoft Azure.

Категория: преобразования форматов данных

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль Convert to DataSet в машинное обучение Azure Studio (классическая модель) для преобразования любых данных, которые могут потребоваться для эксперимента, с внутренним форматом, используемым в Studio (классическая модель).

В большинстве случаев преобразование не требуется, поскольку Машинное обучение Azure неявно преобразует данные в собственный формат набора данных при выполнении любой операции с данными.

Однако сохранение данных в формате набора данных рекомендуется, если выполнена какая-либо нормализация или очистка набора данных и нужно обеспечить использование изменений в дальнейших экспериментах.

Примечание

Преобразование в набор данных изменяет только формат данных, но не сохраняет новую копию данных в рабочей области. Чтобы сохранить набор данных, дважды щелкните порт вывода, выберите Сохранить как набор данных и введите новое имя.

Использование CONVERT в наборе данных

Рекомендуется использовать модуль редактирования метаданных для подготовки набора данных перед использованием инструкции Convert to DataSet. Можно добавлять или изменять имена столбцов, настраивать типы данных и т. д.

  1. Добавьте модуль преобразовать в набор данных в свой эксперимент. Этот модуль можно найти в категории преобразования форматов данных в машинное обучение Azure Studio (классическая модель).

  2. Подключите его к любому модулю, который выводит набор данных.

    Пока данные являются табличными, их можно преобразовать в набор данных. Сюда входят данные, загруженные с помощью импорта данных, данные, созданные с помощью команды Ввод данных вручную, данные, формируемые кодом в пользовательских модулях, наборы данных, преобразованные с помощью инструкции ApplyTransform, или наборы данных, созданные или измененные с помощью функции Применить преобразование SQL.

  3. В раскрывающемся списке действие укажите, хотите ли вы выполнить очистку данных перед сохранением набора данных:

    • Нет: Используйте данные как есть.

    • Сетмиссингвалуе: укажите заполнитель, который вставляется в набор данных везде, где имеется отсутствующее значение. Заполнитель по умолчанию — символ вопросительного знака (?), но можно использовать настраиваемый параметр отсутствующих значений для ввода другого значения.

    • Реплацевалуес: Используйте этот параметр, чтобы указать одно точное значение, которое должно быть заменено любым другим точным значением. Например, если данные содержат строку obs , используемую в качестве заполнителя для отсутствующих значений, можно указать пользовательскую операцию замены, используя следующие параметры:

      1. Установите для параметра заменить на Пользовательский

      2. В поле настраиваемое значение введите значение, которое необходимо найти. В этом случае следует ввести obs .

      3. В поле новое значение введите новое значение, чтобы заменить исходную строку. В этом случае вы можете ввести ?

    Обратите внимание, что операция реплацевалуес применяется только к точным совпадениям. Например, эти строки не затрагиваются: obs. , obsolete .

    • Спарсеаутпут: указывает, что набор данных является разреженным. Создавая разреженный вектор данных, можно убедиться, что недостающие значения не влияют на распределение разреженных данных. После выбора этого параметра необходимо указать, как должны обрабатываться отсутствующие значения и нулевые значения.

    Чтобы удалить любое значение, отличное от нуля, нажмите кнопку Удалить и введите одно значение для удаления. Можно удалить отсутствующие значения или задать пользовательское значение для удаления из вектора. Будут удалены только точные соответствия. Например, если ввести x в текстовое поле удалить значение , это xx не повлияет на строку.

    По умолчанию параметр Удалить нули имеет значение True , означающее, что при создании разреженного столбца удаляются все нулевые значения.

  4. Запустите эксперимент или щелкните правой кнопкой мыши модуль преобразовать в набор данных и выберите пункт Выполнить выбранное.

Результаты

  • Чтобы сохранить результирующий набор данных с новым именем, щелкните правой кнопкой мыши выход преобразовать в набор данных и выберите Сохранить как набор данных.

Примеры

Вы можете увидеть примеры использования модуля преобразования в набор данных в Коллекция решений ии Azure:

  • Пример CRM. считывает данные из общего набора данных и сохраняет копию набора данных в локальной рабочей области.

  • Пример задержки рейса: сохраняет набор данных, который был очищен, заменяя отсутствующие значения, чтобы его можно было использовать для будущих экспериментов.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

  • Любой модуль, который принимает набор данных в качестве входных данных, также может использовать данные в формате CSV, TSV или ARFF. Перед выполнением любого кода модуля выполняется предварительная обработка входных данных, эквивалентная запуску модуля Преобразование в набор данных на входе.

  • Данные в формате SVMLight невозможно преобразовать в набор данных.

  • При указании пользовательской операции замены операция поиска и замены применяется к полным значениям. Частичные совпадения недопустимы. Можно заменить 3 на –1 или 33, но нельзя заменить 3 на двухзначное число, например 35.

  • При пользовательских операциях замены замена автоматически завершится ошибкой, если использовать в качестве альтернативы любой символ, не соответствующий текущему типу данных столбца.

  • Если необходимо сохранить данные, в которых используются числовые данные, имеющие разреженные и отсутствующие значения, то внутри Studio (классическая модель) поддерживаются разреженные массивы с помощью Спарсевектор, который является классом в числовой библиотеке Math.NET. Подготовьте данные, использующие нули и отсутствующие значения, а затем используйте Convert to DataSet с аргументами Спарсеаутпут и удалите нули = true.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Действие Список Метод действия None Действие, которое необходимо применить к входному набору данных

Выходные данные

Имя Type Описание
Набор данных результатов Таблица данных Выходной набор данных

См. также

Преобразования форматов данных
Список модулей в алфавитном порядке