Экспорт данных в хранилище BLOB-объектов Azure

В этой статье описывается, как использовать параметр Экспорт в хранилище BLOB-объектов Azure в модуле экспорт данных в машинное обучение Azure Studio (классическая модель).

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Этот параметр полезен, если вы хотите экспортировать данные из эксперимента машинного обучения в хранилище BLOB-объектов Azure. Например, может потребоваться совместное использование выходных данных машинного обучения с другими приложениями или хранение промежуточных или очищенных наборов данных для использования в других экспериментах.

Доступ к BLOB-объектам Azure можно получить из любого места с помощью протокола HTTP или HTTPS. Так как хранилище BLOB-объектов Azure является неструктурированным хранилищем данных, можно экспортировать данные в различных форматах. В настоящее время поддерживаются форматы CSV, TSV и ARFF.

Чтобы экспортировать данные в большой двоичный объект Azure для использования другими приложениями, используйте модуль Export Data (экспорт данных ), чтобы сохранить данные в хранилище BLOB-объектов Azure. Затем используйте любой инструмент, который может считывать данные из службы хранилища Azure (например, Excel, служебные программы облачного хранилища или другие облачные службы) для загрузки и использования данных.

Примечание

Модули импорта данных и экспорта данных могут считывать и записывать данные только из службы хранилища Azure, созданной с помощью классической модели развертывания. Иными словами, новый тип учетной записи хранилища BLOB-объектов Azure, который предоставляет горячий и холодное уровни доступа к хранилищу, пока не поддерживается.

Как правило, это не повлияет на учетные записи хранения Azure, созданные до появления данного уровня служб.

Однако если необходимо создать новую учетную запись для использования с Машинное обучение Azure, рекомендуется выбрать классическую для модели развертывания или использовать Resource Manager , а для учетной записи выбрать Общее назначение , а не хранилище BLOB-объектов.

Как экспортировать данные в хранилище BLOB-объектов Azure

Служба BLOB-объектов Azure предназначена для хранения больших объемов данных, включая двоичные данные. Существует два типа хранилища BLOB-объектов: открытые большие двоичные объекты и большие двоичные объекты, для которых требуются учетные данные для входа.

  1. Добавьте модуль Export Data (экспорт данных ) в свой эксперимент. Этот модуль можно найти в категории Ввод и вывод данных в студии (классическая модель).

  2. Подключите Экспорт данных к модулю, который создает данные, которые необходимо экспортировать в хранилище BLOB-объектов Azure.

  3. Откройте панель свойств Экспорт данных. В поле назначение данных выберите хранилище BLOB-объектов Azure.

  4. В поле Тип проверки подлинности выберите общедоступный (URL-адрес SAS) , если известно, что хранилище поддерживает доступ через URL-адрес SAS.

    URL-адрес SAS — это особый тип URL-адреса, который можно создать с помощью служебной программы хранилища Azure. он доступен только в течение ограниченного времени. Он содержит всю информацию, необходимую для проверки подлинности и загрузки.

    В поле URI введите или вставьте полный URI, определяющий учетную запись и общедоступный большой двоичный объект.

  5. Для частных учетных записей выберите учетная запись и укажите имя учетной записи и ключ учетной записи, чтобы эксперимент мог выполнять запись в учетную запись хранения.

    • Имя учетной записи: введите или вставьте имя учетной записи, в которой необходимо сохранить данные. Например, если полный URL-адрес учетной записи хранения — https://myshared.blob.core.windows.net , введите myshared .

    • Ключ учетной записи: Вставьте ключ доступа к хранилищу, связанный с учетной записью.

  6. Путь к контейнеру, каталогу или большому двоичному объекту: введите имя большого двоичного объекта, в котором будут храниться экспортированные данные. Например, чтобы сохранить результаты эксперимента в новый большой двоичный объект с именем results01.csv в прогнозах контейнеров в учетной записи с именем мимлдата, полный URL-адрес для большого двоичного объекта будет https://mymldata.blob.core.windows.net/predictions/results01.csv .

    Поэтому в поле путь к контейнеру, каталогу или большому двоичному объекту укажите имя контейнера и BLOB-объекта следующим образом: predictions/results01.csv

  7. Если указать имя большого двоичного объекта, который еще не существует, Azure создаст большой двоичный объект.

    При записи в существующий большой двоичный объект можно указать, что текущее содержимое большого двоичного объекта будет перезаписано, задав свойство, режим записи хранилища BLOB-объектов Azure. По умолчанию для этого свойства задано значение Ошибка. Это означает, что при обнаружении существующего файла большого двоичного объекта с тем же именем возникает ошибка.

  8. В поле Формат файла BLOB-объекта выберите формат, в котором должны храниться данные.

    • CSV: формат хранения по умолчанию — значения с разделителями-запятыми (CSV). Чтобы экспортировать заголовки столбцов вместе с данными, выберите параметр записать строку заголовка большого двоичного объекта. Дополнительные сведения о формате с разделителями-запятыми, используемом в Машинное обучение Azure, см. в разделе Convert to CSV.

    • TSV: формат значений с разделителями-табуляциями (TSV) совместим со многими инструментами машинного обучения. Чтобы экспортировать заголовки столбцов вместе с данными, выберите параметр записать строку заголовка большого двоичного объекта. Дополнительные сведения о формате, разделенном табуляцией, используемом в Машинное обучение Azure, см. в разделе Convert to TSV.

    • ARFF. Этот формат поддерживает сохранение файлов в формате, используемом набором инструментов weka. Этот формат не поддерживается для файлов, хранящихся в URL-адресе SAS. Дополнительные сведения о формате ARFF см. в разделе Convert to ARFF.

  9. Использовать кэшированные результаты: Выберите этот параметр, если необходимо избежать перезаписи результатов в файл большого двоичного объекта при каждом запуске эксперимента. Если другие изменения параметров модуля отсутствуют, эксперимент записывает результаты только при первом запуске модуля или при внесении изменений в данные.

Примеры

Примеры использования модуля Export Data см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Часто задаваемые вопросы

Как избежать записи данных, если эксперимент не изменился

При изменении результатов эксперимента Экспорт данных всегда сохраняет новый набор данных. Однако если эксперимент выполняется повторно, не внося изменений, влияющих на выходные данные, можно выбрать параметр использовать кэшированные результаты .

Модуль проверяет, выполнялся ли ранее эксперимент с теми же данными и теми же параметрами, и если предыдущий запуск найден, операция записи не повторяется.

Можно ли сохранять данные в учетной записи в другом географическом регионе

Да, данные можно записывать в учетные записи в разных регионах. Тем не менее, если учетная запись хранения находится в другом регионе на кластерном узле, используемом для эксперимента машинного обучения, доступ к данным может быть медленнее. Кроме того, вы платите за входящий и исходящий данные подписки.

Параметры модуля

Общие параметры

Имя Диапазон Тип По умолчанию Описание
Источник данных Список Источник данных или приемник хранилище BLOB-объектов Azure Назначением может быть файл в хранилище BLOB-объектов Azure, Таблица Azure, таблица или представление в базе данных SQL Azure или таблица Hive.
Использование кэшированных результатов True или false Логическое Ложь. Модуль выполняется только в том случае, если не существует допустимого кэша. в противном случае используйте кэшированные данные из предыдущих выполнений.
Укажите тип проверки подлинности SAS/учетная запись authenticationType Учетная запись Указывает, следует ли использовать для авторизации доступа учетные данные SAS или учетной записи

Общедоступные или SAS-общедоступные варианты хранения

Имя Диапазон Тип По умолчанию Описание
Универсальный код ресурса SAS для большого двоичного объекта any Строка нет URI SAS записываемого BLOB-объекта (обязательно)
Формат файла SAS ARFF

CSV

TSV
Лоадерутилс. типы файлов CSV Указывает, является ли файл CSV, TSV или ARFF. (обязательно)
Записать строку заголовка SAS True или false Логическое Ложь. Указывает, следует ли записывать заголовки столбцов в файл

Учетная запись — параметры частного хранилища

Имя Диапазон Тип По умолчанию Описание
Имя учетной записи Azure any Строка нет Имя учетной записи пользователя Azure
Ключ учетной записи Azure any SecureString нет Ключ к хранилищу Azure
Путь к большому двоичному объекту, начинающемуся с контейнера any Строка нет Имя файла большого двоичного объекта, начинающееся с имени контейнера
Режим записи хранилища больших двоичных объектов Azure Список: ошибка, перезаписать перечисление: Блобфилевритемоде Ошибка Выбор метода записи файлов BLOB-объектов
Формат файла для большого двоичного объекта ARFF

CSV

TSV
Лоадерутилс. типы файлов CSV Указывает, является ли файл большого двоичного объекта CSV, TSV или ARFF
Запись строки заголовка BLOB-объекта True или false Логическое Ложь. Указывает, должен ли файл большого двоичного объекта содержать строку заголовка

Исключения

Исключение Описание
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030 Исключение возникает, когда не удается скачать файл.
Ошибка 0002 Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0009 Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно.
Ошибка 0048 Исключение возникает, когда не удается открыть файл.
Ошибка 0046 Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049 Исключение возникает, когда не удается проанализировать файл.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Экспорт данных
Экспорт в базу данных SQL Azure
Экспорт в запрос Hive
Экспорт в таблицу Azure