Данные в Машинном обучении Azure версии 1

ОБЛАСТЬ ПРИМЕНЕНИЯ: Расширение ml для Azure CLI версии 1

ОБЛАСТЬ ПРИМЕНЕНИЯ:Пакет SDK для Python для ML Azure версии 1

Машинное обучение Azure позволяет легко подключаться к данным в облаке. Он предоставляет уровень абстракции по сравнению с базовой службой хранилища, что позволяет безопасно получать доступ к данным и работать с ними без необходимости написания кода, относящегося к типу хранилища. Машинное обучение Azure предоставляет следующие возможности данных:

  • Взаимодействие с кадрами данных Pandas и Spark
  • Управление версиями и отслеживание преобразований данных
  • Маркировка данных
  • Мониторинг смещения данных

Рабочий процесс

Когда вы будете готовы к использованию данных в облачном решении для хранения, мы рекомендуем использовать следующий рабочий процесс доставки данных. В этом рабочем процессе предполагается, что у вас есть учетная запись хранения Azure и данные в облачной службе хранилища Azure.

  1. Создайте хранилище данных машинного обучения Azure для хранения сведений о подключении к службе хранилища Azure.

  2. На основе этого хранилища данных создайте набор данных машинного обучения Azure DataSet, указывающий на определенные файлы в базовом хранилище.

  3. Чтобы использовать этот набор данных в эксперименте машинного обучения, можно либо

    • Подключите его к целевому объекту вычислений эксперимента для обучения модели.

      OR

    • Его следует использовать непосредственно в решениях Машинного обучения Azure, таких как Автоматизированные запуски экспериментов машинного обучения, конвейеры машинного обучения или конструктор машинное обучение Azure.

  4. Создание мониторов набора данных для выходного набора данных модели для обнаружения смещения данных.

  5. Если будет обнаружено смещение данных, обновите входной набор данных и соответствующим образом выполните обучение модели.

На следующей схеме показана визуальная демонстрация этого рекомендуемого рабочего процесса.

На схеме показана служба хранилища Azure, которая помещается в хранилище данных, которое передается в DataSet.

Подключение к хранилищу данных с использованием хранилищ данных

Машинное обучение Azure хранилища данных безопасно сохраняют информацию о подключении к хранилищу в Azure, поэтому вам не нужно кодировать их в своих сценариях. Зарегистрируйте и создайте хранилище данных, чтобы легко подключиться к учетной записи хранения и получить доступ к данным в базовой службе хранилища.

Поддерживаемые облачные службы хранилища в Azure, которые можно зарегистрировать как хранилища данных:

  • Контейнер BLOB-объектов Azure
  • Общая папка Azure
  • Azure Data Lake
  • Azure Data Lake 2-го поколения
  • База данных SQL Azure
  • База данных Azure для PostgreSQL
  • Файловая система Databricks
  • База данных Azure для MySQL

Совет

Вы можете создать хранилище данных с проверкой подлинности на основе учетных данных для доступа к службам хранилища, таким как субъект-служба или маркер подписанного URL-доступа (SAS). Доступ к этим учетным данным можно получить у пользователей, имеющих доступ к рабочей области с правами читателя.

Если это критично, создайте хранилище данных, которое использует доступ к данным на основе удостоверений для подключения к службам хранилища.

Справочные данные в хранилище с помощью наборов данных

Машинное обучение Azure наборы данных не копируются. Создавая набор данных, вы создаете ссылку на расположение данных службы хранения, а также копию его метаданных.

Поскольку наборы данных отложенно оцениваются, и данные остаются в существующем расположении, вы

  • снижаются расходы на хранение;
  • снижаются риски непреднамеренного изменения исходных источников данных;
  • Улучшение производительности рабочих процессов ML.

Чтобы взаимодействовать с данными в хранилище, создайте набор данных для упаковки данных в объект, который можно использовать для задач машинного обучения. Зарегистрируйте набор данных в рабочей области, чтобы поделиться им и повторно использовать его в разных экспериментах без сложностей приема данных.

Наборы данных можно создавать из локальных файлов, общедоступных URL-адресов, открытых наборов данных Azureили служб хранилища Azure через хранилища данных.

Существует два типа наборов данных:

  • FileDataset ссылается на один или несколько файлов в хранилищах данных или общедоступных URL-адресах. Если данные уже очищены и готовы к использованию в учебных экспериментах, можно загрузить или подключить к целевому объекту вычислений файлы, на которые ссылается FileDatasets.

  • TabularDataset переводит данные в табличный формат, выполняя синтаксический анализ предоставленных файлов. Вы можете загрузить TabularDataset в кадр данных Pandas или Spark для дальнейшей обработки и очистки. Полный список форматов данных, из которых можно создать TabularDatasets, см. в разделе класс TabularDatasetFactory.

Дополнительные возможности наборов данных можно найти в следующей документации:

Работа с данными

С помощью наборов данных можно выполнять ряд задач машинного обучения благодаря простой интеграции с функциями Машинного обучения Azure.

Пометка данных с помощью проектов меток данных

Добавление меток к большим объемам данных часто усложняет проекты машинного обучения. Для таких компонентов концепции компьютера, как классификация изображений или обнаружение объектов, обычно требуются тысячи изображений и соответствующие метки.

Решение "Машинное обучение Azure" служит централизованным расположением для создания, администрирования и мониторинга проектов маркировки. Проекты маркировки помогают упорядочивать данные, метки и координировать работу команды, то есть более эффективно управлять задачами присвоения меток. Сейчас поддерживаются такие задачи: классификация изображений (с несколькими метками или классами) и идентификация объектов с использованием ограничивающих прямоугольников.

Создание образа с меткой проекта или текста с меткой проекта, и вывод набора данных для использования в экспериментах машинного обучения.

Мониторинг производительности модели с помощью смещения данных

В контексте машинного обучения смещение данных — это изменение входных данных модели, которое приводит к снижению производительности модели. Это одна из основных причин, с которой точность снижается с течением времени, поэтому отслеживание смещения данных помогает выявить проблемы с производительностью модели.

Дополнительные сведения о способах обнаружения и оповещения о смещении данных для новых данных в наборе данных см. в статье Создание монитора набора данных.

Дальнейшие действия