Импорт данных в конструктор Машинного обучения Azure

Из этой статьи вы узнаете, как импортировать собственные данные в конструктор, чтобы создавать пользовательские решения. Импортировать данные в конструктор можно двумя способами.

  • Наборы данных Машинного обучения Azure. Зарегистрируйте наборы данных в Машинном обучении Azure, чтобы включить дополнительные функции, помогающие управлять данными.
  • Компонент "Импорт данных". Используйте компонент Импорт данных для прямого доступа к данным из подключенных источников данных.

Важно!

Если вы не видите графические элементы, упомянутые в этом документе, такие как кнопки в студии или конструкторе, возможно, у вас нет соответствующих разрешений для рабочей области. Обратитесь к администратору подписки Azure, чтобы убедиться, что вам предоставлен правильный уровень доступа. Дополнительные сведения см. в статье Управление доступом к рабочей области Машинного обучения Azure.

Использование наборов данных Машинного обучения Azure

Чтобы импортировать данные в конструктор, рекомендуется использовать наборы данных. Зарегистрировав набор данных, можно воспользоваться всеми преимуществами расширенных функций обработки данных, такими как управление версиями и отслеживание и мониторинг данных.

Регистрация набора данных

Имеющиеся наборы данных можно зарегистрировать программно с помощью пакета SDK или вручную в Студии машинного обучения Azure.

Можно также зарегистрировать в качестве набора данных выходные данные любого компонента конструктора.

  1. Выберите компонент, выводящий данные, которые необходимо зарегистрировать.

  2. На панели "Свойства" выберите пункт Выходные данные и журналы>Регистрация набора данных.

    Снимок экрана, показывающий, как перейти к параметру

Если выходные данные компонента находятся в табличном формате, необходимо выбрать регистрацию выходных данных в виде файлового набора данных или табличного набора данных.

  • Файловый набор данных регистрирует выходную папку компонента в виде файлового набора данных. Выходная папка содержит файл данных и мета-файлы, используемые конструктором для внутренних целей. Выберите этот параметр, если вы хотите продолжить использовать зарегистрированный набор данных в конструкторе.

  • Табличный набор данных регистрирует только выходной файл данных компонента в виде табличного набора данных. Этот формат легко читается в других инструментах, например в AutoML или в пакете SDK для Python. Выберите этот параметр, если вы планируете использовать зарегистрированный набор данных вне конструктора.

Использование набора данных

Ваши зарегистрированные наборы данных можно найти на панели компонентов в разделе "Наборы данных". Чтобы использовать набор данных, перетащите его на холст конвейера. Затем подключите порт вывода набора данных к другим компонентам на рабочем пространстве.

При регистрации файлового набора данных тип порта вывода набора данных — AnyDirectory. При регистрации табличного набора данных тип порта вывода набора данных — DataFrameDirectory. Обратите внимание, что при подключении порта вывода набора данных к другим компонентам в конструкторе тип порта наборов данных и компоненты должны быть согласованы.

Снимок экрана, показывающий расположение сохраненных наборов данных на палитре конструктора

Примечание

Конструктор поддерживает управление версиями набора данных. Укажите версию набора данных на панели свойств компонента набора данных.

Ограничения

  • Сейчас конструктор позволяет визуализировать только табличный набор данных. Если файловый набор данных регистрируется вне конструктора, его невозможно визуализировать на рабочем пространстве конструктора.
  • В настоящее время конструктор поддерживает только предварительные выходные данные, которые хранятся в хранилище BLOB-объектов Azure. Вы можете проверить и изменить хранилище выходных данных в параметрах выходных данных на вкладке "Параметры" в правой панели компонента.
  • Если данные хранятся в виртуальной сети и требуется предварительно просмотреть их, необходимо включить управляемое удостоверение рабочей области для хранилища данных.
    1. Перейдите к связанному хранилищу данных и щелкните "Изменить способ аутентификации"
    2. Чтобы включить управляемое удостоверение рабочей области, выберите опцию Да. Включение управляемого удостоверения рабочей области

Импорт данных с помощью компонента "Импорт данных"

Хотя мы рекомендуем использовать для импорта наборы данных, можно также использовать компонент "Импорт данных". Компонент "Импорт данных" пропускает регистрацию набора данных в Машинном обучении Azure и импортирует данные непосредственно из хранилища данных или URL-адреса HTTP.

Подробные сведения об использовании компонента "Импорт данных" см. на странице справочных материалов по импорту данных.

Примечание

Если набор данных содержит слишком много столбцов, может возникнуть следующая ошибка: "Сбой проверки из-за ограничения размера". Чтобы избежать этой ошибки, зарегистрируйте набор данных в интерфейсе наборов данных.

Поддерживаемые источники

В этом разделе перечислены источники данных, поддерживаемые конструктором. Конструктор принимает данные из хранилища данных либо из табличного набора данных.

Источники хранилища данных

Список поддерживаемых источников хранилища данных см. в разделе Доступ к данным в службах хранилища Azure.

Источники табличных наборов данных

Конструктор поддерживает табличные наборы данных, созданные на основе следующих источников:

  • файлы с разделителями;
  • файлы JSON;
  • файлы Parquet;
  • SQL-запросы

Типы данных

Конструктор распознает следующие типы данных:

  • Строка
  • Целое число
  • Decimal
  • Логическое
  • Дата

Для передачи данных между компонентами конструктор использует внутренний тип данных. Данные можно явно преобразовать в формат таблицы данных с использованием компонента "Преобразование в набор данных". Любые компоненты, которые принимают форматы, отличные от внутреннего формата, перед передачей данных в следующий компонент автоматически преобразуют данные.

Ограничения данных

Модули в конструкторе ограничены размером целевого объекта вычислений. Для больших наборов данных следует использовать больший ресурс Машинного обучения Azure. Дополнительные сведения о вычислениях в Машинном обучении Azure см. в разделе Что такое целевые вычисления в Машинном обучении Azure?

Доступ к данным в виртуальной сети

Если ваша рабочая область находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке для визуализации данных в конструкторе. Дополнительные сведения об использовании хранилищ и наборов данных в виртуальной сети см. в статье Использование Студии машинного обучения Azure в виртуальной сети Azure.

Дальнейшие действия

Изучите основы работы с конструктором в статье Руководство по прогнозированию цен на автомобили с помощью конструктора.