Экспорт данных

Записывает набор данных в различные формы облачного хранилища в Azure, такие как таблицы, большие двоичные объекты и базы данных SQL Azure.

Категория: входные и выходные данные

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль Export Data (экспорт данных ) в машинное обучение Azure Studio (классическая модель) для сохранения результатов, промежуточных данных и рабочих данных из экспериментов в целевых хранилищах облачных хранилищ за пределами машинное обучение Azure Studio (классическая модель).

Этот модуль поддерживает экспорт или сохранение данных в следующих облачных службах данных:

  • Экспорт в запрос Hive: запись данных в таблицу Hive в кластере HDInsight Hadoop.

  • Экспорт в базу данных SQL Azure: сохранение данных в базе данных SQL Azure или в хранилище данных SQL Azure.

  • Экспорт в таблицу Azure: сохранение данных в службу хранилища таблиц в Azure. Хранилище таблиц удобно для хранения больших объемов данных. Он представляет собой табличный формат, который является масштабируемым, недорогим и высоким уровнем доступности.

  • Экспорт в хранилище BLOB-объектов Azure. сохраняет данные в службе BLOB-объектов в Azure. Этот вариант подходит для хранения изображений, неструктурированного текста или двоичных данных. Данные в службе BLOB-объектов можно сделать общими или хранить в защищенных хранилищах данных приложения.

Примечание

Модуль экспорта данных не поддерживает подключение к учетной записи хранилища BLOB-объектов Azure, если включен параметр "требуется безопасное перемещение".

  • Загрузить данные: Чтобы загрузить данные, чтобы их можно было открыть в Excel или другом приложении, используйте модуль, например Convert to CSV или Convert to TSV , чтобы подготовить данные в определенном формате, а затем загрузить их.

  • Вы можете скачать результаты любого модуля, который выводит набор данных, щелкнув правой кнопкой мыши выходные данные и выбрав загрузить набор данных. По умолчанию данные экспортируются в формате CSV.

  • Скачайте определение модуля или эксперимент: Новая библиотека PowerShell позволяет скачать полные метаданные для эксперимента или сведения о конкретном модуле. Библиотека PowerShell для Машинное обучение Azure Library является экспериментальным выпуском, но имеет множество полезных командлетов:

    • Get-AmlExperiment Список всех экспериментов в рабочей области.

    • Export-AmlExperimentGraph экспортирует определение полного эксперимента в JSON-файл.

    • Download-AmlExperimentNodeOutput позволяет извлекать сведения, предоставленные на выходных портах любого модуля.

      Дополнительные сведения см. в разделе модуль PowerShell для машинное обучение Azure Studio (классическая модель).

Настройка экспорта данных

  1. Добавьте модуль Export Data (экспорт данных ) в эксперимент в студии (классическая модель). Этот модуль можно найти в категории входные и выходные данные .

  2. Подключите Экспорт данных к модулю, содержащему данные, которые необходимо экспортировать.

  3. Дважды щелкните Экспорт данных , чтобы открыть панель « свойства ».

  4. В поле назначение данных выберите тип облачного хранилища, в котором будут сохранены данные. При внесении каких либо изменений в этот параметр все остальные свойства сбрасываются. Поэтому не забудьте сначала выбрать этот вариант.

  5. Укажите имя учетной записи и метод проверки подлинности, необходимые для доступа к указанной учетной записи хранения.

    В зависимости от типа хранилища и от того, защищена ли учетная запись, может потребоваться указать имя учетной записи, тип файла, ключ доступа или имя контейнера. Для источников, которые не требуют проверки подлинности, обычно достаточно узнать URL-адрес.

    Примеры каждого типа см. в следующих разделах:

  6. Параметр использовать кэшированные результаты позволяет повторять эксперименты, не переписывая одни и те же результаты каждый раз.

    Если отменить выбор этого параметра, результаты будут записываться в хранилище каждый раз при выполнении эксперимента независимо от того, изменились ли выходные данные.

    При выборе этого параметра Экспорт данных использует кэшированные данные, если они доступны. Новые результаты создаются только при наличии вышестоящего изменения, которое повлияет на результаты.

  7. Запустите эксперимент.

Примеры

Примеры использования модуля Export Data см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Совет

Не знаете, как или где следует хранить данные? Ознакомьтесь с этим руководством по общим сценариям данных в процессе обработки и анализа данных: сценарии для расширенной аналитики в машинное обучение Azure

Сведения о реализации

  • Этот модуль ранее назывался Writer. Если у вас уже есть эксперимент, использующий модуль записи , модуль переименовывается для экспорта данных при обновлении эксперимента.

  • Не все модули создают выходные данные, совместимые с назначениями экспорта данных . Например, Экспорт данных не может сохранить набор данных, преобразованный в формат SVMLight. Экспорт данных поддерживает следующие форматы:

    • Набор данных (внутренний формат машинного обучения Azure)
    • Таблица данных .NET
    • CSV с заголовками или без них
    • TSV с заголовками или без них

Известные проблемы

  • При выборе таблицы Azure в качестве расположения для вывода данных иногда может возникнуть ошибка при записи в указанную таблицу. В этом случае данные могут быть записаны в большой двоичный объект.

    Если эта ошибка возникает, а позднее вы не можете считать данные из ожидаемой таблицы, попробуйте использовать служебную программу хранилища Azure для проверки больших двоичных объектов в указанном контейнере в вашей учетной записи хранения.

  • В настоящее время сохранить большой двоичный объект в указанную таблицу Hive невозможно. Если необходимо написать промежуточные результаты, старайтесь не использовать таблицу Hive в HDInsight и вместо этого использовать хранилище BLOB-объектов или хранилище таблиц.

  • В настоящее время при выборе HDFS в качестве расположения для сохранения выходных данных возвращается следующее сообщение об ошибке: "Microsoft. Analytics. Exceptions. Еррормаппинг + Модуликсцептион."

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Набор данных для записи.

Параметры модуля

В этой таблице перечислены параметры, которые применяются ко всем параметрам экспорта данных . Другие параметры являются динамическими и изменяются в зависимости от выбранного назначения данных.

Имя Диапазон Тип По умолчанию Описание
Укажите назначение данных Список DataSourceOrSink Служба BLOB-объектов в службе хранилища Azure Укажите, является ли назначение данных файлом в службе BLOB-объектов, файлом в службе таблиц, базой данных SQL в Azure или таблицей Hive.
Использование кэшированных результатов True или false Логическое Ложь. Выберите этот параметр, чтобы избежать перезаписи результатов без необходимости. Если что-либо изменяет восходящий поток в эксперименте, Экспорт данных будет выполняться всегда и записывать новые результаты. Однако если ничего не изменилось и вы выбрали этот параметр, Экспорт данных не будет выполняться, чтобы избежать перезаписи тех же результатов.

Исключения

Исключение Описание
Ошибка 0057 Исключение возникает при попытке создать файл или большой двоичный объект, который уже существует.
Ошибка 0001 Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0079 Исключение возникает, если имя контейнера в службе хранилища Azure указано неверно.
Ошибка 0052 Исключение возникает, если ключ доступа к хранилищу для учетной записи Azure указан неверно.
Ошибка 0064 Исключение возникает, если имя учетной записи или ключ доступа к хранилищу для учетной записи Azure указан неверно.
Ошибка 0071 Исключение возникает, если указаны неверные учетные данные.
Ошибка 0018 Исключение возникает, если входной набор данных недопустим.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Входные и выходные данные
Преобразование данных
Сравнение хранилища таблиц Azure и базы данных SQL Azure
Список модулей в алфавитном порядке