Экспорт данных

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

записывает набор данных в различные формы облачного хранилища в Azure, такие как таблицы, большие двоичные объекты и базы данных Azure SQL

Категория: входные и выходные данные

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль Export Data (экспорт данных ) в Машинное обучение Studio (классическая модель) для сохранения результатов, промежуточных данных и рабочих данных из экспериментов в целевых хранилищах облачных хранилищ за пределами Машинное обучение Studio (классическая модель).

Этот модуль поддерживает экспорт или сохранение данных в следующих облачных службах данных:

  • Экспорт в запрос Hive: запись данных в таблицу Hive в кластере HDInsight Hadoop.

  • экспорт в База данных SQL Azure: сохранение данных в База данных SQL Azure или для Azure SQL Data Warehouse.

  • Экспорт в таблицу Azure: сохранение данных в службу хранилища таблиц в Azure. Хранилище таблиц удобно для хранения больших объемов данных. Он представляет собой табличный формат, который является масштабируемым, недорогим и высоким уровнем доступности.

  • экспорт в Хранилище BLOB-объектов Azure: сохраняет данные в службу BLOB-объектов в Azure. Этот вариант подходит для хранения изображений, неструктурированного текста или двоичных данных. Данные в службе BLOB-объектов можно сделать общими или хранить в защищенных хранилищах данных приложения.

Примечание

Модуль экспорта данных не поддерживает подключение к учетной записи хранилища BLOB-объектов Azure, если включен параметр "требуется безопасное перемещение".

  • Загрузить данные: чтобы загрузить данные, чтобы открыть их в Excel или другом приложении, используйте модуль, например Convert to CSV или convert to TSV для подготовки данных в определенном формате, а затем загрузите данные.

  • Вы можете скачать результаты любого модуля, который выводит набор данных, щелкнув правой кнопкой мыши выходные данные и выбрав загрузить набор данных. По умолчанию данные экспортируются в формате CSV.

  • Скачайте определение модуля или эксперимент: Новая библиотека PowerShell позволяет скачать полные метаданные для эксперимента или сведения о конкретном модуле. библиотека PowerShell для Машинное обучение library является экспериментальным выпуском, но имеет множество полезных командлетов:

    • Get-AmlExperiment Список всех экспериментов в рабочей области.
    • Export-AmlExperimentGraph экспортирует определение полного эксперимента в JSON-файл.
    • Download-AmlExperimentNodeOutput позволяет извлекать сведения, предоставленные на выходных портах любого модуля.

Как настроить модуль "Экспорт данных"

  1. Добавьте модуль Export Data (экспорт данных ) в эксперимент в студии (классическая модель). Этот модуль можно найти в категории Входные и выходные данные.

  2. Подключение экспортировать данные в модуль, содержащий данные, которые необходимо экспортировать.

  3. Дважды щелкните Экспорт данных , чтобы открыть панель « свойства ».

  4. В поле назначение данныхвыберите тип облачного хранилища, в котором будут сохранены данные. При внесении каких либо изменений в этот параметр все остальные свойства сбрасываются. Поэтому не забудьте сначала выбрать этот вариант.

  5. Укажите имя учетной записи и метод проверки подлинности, необходимые для доступа к указанной учетной записи хранения.

    В зависимости от типа хранилища и от того, защищена ли учетная запись, может потребоваться указать имя учетной записи, тип файла, ключ доступа или имя контейнера. Для источников, которые не требуют проверки подлинности, обычно достаточно узнать URL-адрес.

    Примеры каждого типа см. в следующих разделах:

  6. Параметр использовать кэшированные результатыпозволяет повторять эксперименты, не переписывая одни и те же результаты каждый раз.

    Если отменить выбор этого параметра, результаты будут записываться в хранилище каждый раз при выполнении эксперимента независимо от того, изменились ли выходные данные.

    При выборе этого параметра Экспорт данных использует кэшированные данные, если они доступны. Новые результаты создаются только при наличии вышестоящего изменения, которое повлияет на результаты.

  7. Запустите эксперимент.

Примеры

Примеры использования модуля Export Data см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

  • Этот модуль ранее назывался Writer. Если у вас уже есть эксперимент, использующий модуль записи , модуль переименовывается для экспорта данных при обновлении эксперимента.

  • Не все модули создают выходные данные, совместимые с назначениями экспорта данных . Например, Экспорт данных не может сохранить набор данных, преобразованный в формат SVMLight. Экспорт данных поддерживает следующие форматы:

    • набор данных (внутренний формат Azure ML)
    • Таблица данных .NET
    • CSV с заголовками или без них
    • TSV с заголовками или без них

Известные проблемы

  • При выборе таблицы Azure в качестве расположения для вывода данных иногда может возникнуть ошибка при записи в указанную таблицу. В этом случае данные могут быть записаны в большой двоичный объект.

    Если эта ошибка возникает, а позднее вы не можете считать данные из ожидаемой таблицы, попробуйте использовать служебную программу хранилища Azure для проверки больших двоичных объектов в указанном контейнере в вашей учетной записи хранения.

  • В настоящее время сохранить большой двоичный объект в указанную таблицу Hive невозможно. Если необходимо написать промежуточные результаты, старайтесь не использовать таблицу Hive в HDInsight и вместо этого использовать хранилище BLOB-объектов или хранилище таблиц.

  • В настоящее время при выборе HDFS в качестве расположения для сохранения выходных данных возвращается следующее сообщение об ошибке: "Microsoft. Analytics. Exceptions. Еррормаппинг + Модуликсцептион."

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Набор данных для записи.

Параметры модуля

В этой таблице перечислены параметры, которые применяются ко всем параметрам экспорта данных . Другие параметры являются динамическими и изменяются в зависимости от выбранного назначения данных.

Имя Диапазон Тип По умолчанию Описание
Укажите назначение данных Список DataSourceOrSink Служба BLOB-объектов в службе хранилища Azure укажите, является ли назначение данных файлом в службе Blob-объектов, файлом в службе таблиц, SQL базой данных в Azure или таблицей Hive.
Использование кэшированных результатов True или false Логическое FALSE Выберите этот параметр, чтобы избежать перезаписи результатов без необходимости. Если что-либо изменяет восходящий поток в эксперименте, Экспорт данных будет выполняться всегда и записывать новые результаты. Однако если ничего не изменилось и вы выбрали этот параметр, Экспорт данных не будет выполняться, чтобы избежать перезаписи тех же результатов.

Исключения

Исключение Описание
Ошибка 0057 Исключение возникает при попытке создать файл или большой двоичный объект, который уже существует.
Ошибка 0001 Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0079 Исключение возникает, если имя контейнера в службе хранилища Azure указано неверно.
Ошибка 0052 Исключение возникает, если ключ доступа к хранилищу для учетной записи Azure указан неверно.
Ошибка 0064 Исключение возникает, если имя учетной записи или ключ доступа к хранилищу для учетной записи Azure указан неверно.
Ошибка 0071 Исключение возникает, если указаны неверные учетные данные.
Ошибка 0018 Исключение возникает, если входной набор данных недопустим.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Входные и выходные данные
Преобразование данных
Сравнение табличного хранилища Azure и базы данных SQL Azure
Список модулей в алфавитном порядке