Использование Студии машинного обучения Azure в виртуальной сети Azure

Из этой статьи вы узнаете, как использовать Студию машинного обучения Azure в виртуальной сети. Студия включает такие возможности, как AutoML, конструктор и маркировку данных.

Некоторые из функций студии в виртуальной сети по умолчанию отключаются. Чтобы включить обратно эти функции, необходимо включить управляемые удостоверения для учетных записей хранения, с которыми вы намерены работать в студии.

По умолчанию в виртуальной сети отключены следующие операции:

  • Предварительный просмотр данных в студии.
  • Визуализация данных в конструкторе.
  • Развертывание модели в конструкторе.
  • Отправка эксперимента автоматизированного машинного обучения (AutoML).
  • Запуск проекта маркировки.

Студия поддерживает считывание данных из хранилищ данных следующих типов в виртуальной сети:

  • Учетная запись хранения Azure (большие двоичные объекты и файлы)
  • Хранилище Azure Data Lake Storage 1-го поколения
  • Azure Data Lake Storage 2-го поколения
  • База данных SQL Azure

Вы узнаете, как выполнять следующие задачи:

  • Предоставление Студии доступа к данным, которые хранятся в виртуальной сети.
  • Получение к Студии доступа из ресурса, который расположен в виртуальной сети.
  • Узнайте, как Студия влияет на безопасность хранилища.

Предварительные требования

Ограничения

Учетная запись хранения Azure

Существует известная проблема, из-за которой хранилище файлов по умолчанию не создает автоматически папку azureml-filestore, которая необходима для отправки экспериментов AutoML. Это происходит, когда пользователи в ходе создания рабочей области переносят существующее хранилище файлов, которое задается в качестве хранилища файлов по умолчанию.

Избежать этой проблемы можно двумя способами: 1) Использовать хранилище файлов по умолчанию, которое автоматически создается для вас в ходе создания рабочей области. 2) Если нужно использовать ваше собственное хранилище файлов, убедитесь, что на момент создания рабочей области это хранилище файлов находится за пределами виртуальной сети. После создания рабочей области добавьте учетную запись хранения в виртуальную сеть.

Чтобы устранить эту проблему, если она уже возникла, удалите учетную запись хранилища файлов из виртуальной сети, затем добавьте ее обратно в виртуальную сеть.

Хранилище данных: учетная запись хранения Azure

Выполните следующие действия, чтобы включить доступ к данным, хранящимся в хранилище файлов и BLOB-объектов Azure:

Совет

Первый шаг не требуется для учетной записи хранения по умолчанию для рабочей области. Все остальные действия необходимы для любой учетной записи хранения, которая находится за виртуальной сетью и используется рабочей областью, включая учетную запись хранения по умолчанию.

  1. Если учетная запись хранения является хранилищем по умолчанию для рабочей области, пропустите этот шаг. Если это не значение по умолчанию, предоставьте управляемому удостоверению рабочей области роль "Средство чтения данных больших двоичных объектов" для учетной записи хранения Azure, чтобы она могла считывать данные из хранилища Blob-объектов.

    Дополнительные сведения см. в разделе Средство чтения данных больших двоичных объектов.

  2. Предоставьте управляемому удостоверению рабочей области роль "Читатель" для частных конечных точек хранилища. Если в вашей учетной записи хранения используется частная конечная точка, предоставьте удостоверению, управляемому рабочей областью, доступ Читатель к частной конечной точке. Удостоверение, управляемое рабочей областью в Azure AD, имеет то же имя, что и рабочая область Машинного обучения Azure.

    Совет

    Ваша учетная запись хранения может иметь несколько частных конечных точек. Например, одна учетная запись хранения может иметь отдельную частную конечную точку для хранилища BLOB-объектов и файлов. Добавьте управляемое удостоверение в обе конечные точки.

    Дополнительные сведения см. в разделе Встроенная роль "Читатель".

  3. Включение проверки подлинности по управляемому удостоверению для учетных записей хранения по умолчанию. В каждой рабочей области Машинного обучения Azure имеется две учетных записи хранения по умолчанию: учетная запись хранения больших двоичных объектов по умолчанию и учетная запись хранения файлов по умолчанию. Обе эти учетные записи определяются при создании рабочей области. На странице управления Хранилища данных также можно выбрать другие значения по умолчанию.

    Снимок экрана, показывающий, где можно просмотреть хранилища данных по умолчанию

    В следующей таблице описана причина использования проверки подлинности по управляемым удостоверениям для учетных записей хранения по умолчанию вашей рабочей области.

    Учетная запись хранения Примечания
    Хранилище больших двоичных объектов рабочей области по умолчанию Содержит активы моделей из конструктора. Чтобы развертывать модели в конструкторе, включите проверку подлинности по управляемым удостоверениям для этой учетной записи хранения.

    Визуализировать и выполнять конвейер конструктора можно и при использовании хранилища данных не по умолчанию, которое настроено на использование управляемых удостоверений. Однако при попытке развернуть обученную модель без включенных управляемых удостоверений в хранилище данных по умолчанию развертывание завершится сбоем — вне зависимости от любых прочих используемых хранилищ.
    Хранилище файлов рабочей области по умолчанию Содержит ресурсы экспериментов AutoML. Чтобы отправлять эксперименты AutoML, включите проверку подлинности по управляемым удостоверениям для этой учетной записи хранения.
  4. Настройка хранилищ данных для использования проверки подлинности по управляемым удостоверениям. После добавления учетной записи хранения Azure в виртуальную сеть с применением либо конечной точки службы, либо частной конечной точки необходимо настроить хранилище данных на использование проверки подлинности с помощью управляемых удостоверений. Это позволит студии получить доступ к данным в вашей учетной записи хранения.

    В Машинном обучении Azure для подключения к учетным записям хранения применяются хранилища данных. При создании нового хранилища данных выполните следующие действия, чтобы настроить его для проверки подлинности по управляемым удостоверениям:

    1. В Студии выберите Хранилища данных.

    2. Чтобы обновить существующее хранилище данных, выберите это хранилище данных и нажмите Обновление учетных данных.

      Чтобы создать новое хранилище данных, выберите + Новое хранилище данных.

    3. В параметрах хранилища данных установите параметр Использовать управляемое удостоверение рабочей области для предпросмотра и профилирования данных в Студии машинного обучения Azure в значение Да.

      Снимок экрана, на котором показано включение управляемого удостоверения рабочей области

    После выполнения этих шагов управляемое удостоверение рабочей области будет добавлено в новую службу хранения с ролью Читатель, в которой используется Azure RBAC. Доступ для чтения позволяет рабочей области просматривать ресурс, но не вносить в него изменения.

Хранилище данных: Azure Data Lake Storage 1-го поколения

При использовании Azure Data Lake Storage 1-го поколения в качестве хранилища данных можно использовать только списки управления доступом в стиле POSIX. Удостоверению, управляемому рабочей областью, можно назначать доступ к ресурсам, как и любому другому субъекту безопасности. Дополнительные сведения см. в статье Контроль доступа в Azure Data Lake Storage 1-го поколения.

Хранилище данных: Azure Data Lake Storage 2-го поколения

При использовании Azure Data Lake Storage 2-го поколения в качестве хранилища данных можно использовать как Azure RBAC, так и списки управления доступом (ACL) в стиле POSIX для управления доступом к данным в виртуальной сети.

Чтобы использовать Azure RBAC, добавьте удостоверение, управляемое рабочей областью, в роль Средство чтения данных больших двоичных объектов. Дополнительные сведения см. в статье Управление доступом на основе ролей в Azure.

Для использования списков управления доступом можно назначить удостоверению, управляемому рабочей областью, доступ, как и любому другому субъекту безопасности. Дополнительные сведения см. в разделе Списки управления доступом для файлов и каталогов.

Хранилище данных: База данных Azure SQL

Для доступа с помощью управляемого удостоверения к данным, хранящимся в Базе данных Azure SQL, необходимо создать автономного пользователя SQL, который будет сопоставлен с этим управляемым удостоверением. Дополнительные сведения о создании пользователей из внешнего поставщика см. в разделе Создание автономных пользователей, сопоставленных с удостоверениями Azure AD.

После создания автономного пользователя SQL предоставьте ему разрешения с помощью команды T-SQL GRANT.

Промежуточные выходные данные модуля

При использовании выходных данных промежуточного модуля конструктора Машинного обучения Azure можно указать расположение выходных данных для любого модуля в конструкторе. Используйте эту возможность для сохранения промежуточных наборов данных в отдельных расположениях, в целях обеспечения безопасности, ведения журналов или аудита. Чтобы указать выходные данные, выполните следующие действия:

  1. Выберите модуль, для которого необходимо задать расположение выходных данных.
  2. В области настроек модуля, которая отобразится справа, выберите Параметры вывода.
  3. Укажите хранилище данных, которое должно использоваться для выходных данных конкретного модуля.

Убедитесь, что у вас есть доступ к учетным записям промежуточных хранилищ в виртуальной сети. В противном случае работа конвейера будет нарушена.

Включите проверку подлинности по управляемым удостоверениям для учетных записей промежуточных хранилищ, чтобы можно было визуализировать выходные данные.

Получение доступа к студии из ресурса внутри виртуальной сети

При доступе к студии из ресурса, расположенного внутри виртуальной сети (например, это может быть вычислительный экземпляр или виртуальная машина) необходимо разрешить исходящий трафик из виртуальной сети в студию.

Например, если для ограничения исходящего трафика используются группы безопасности сети (NSG), добавьте правило в назначение тега службы AzureFrontDoor.Frontend.

Параметры брандмауэра

Некоторые службы хранилища, такие как учетная запись хранения Azure, используют параметры брандмауэра, применяемые к общедоступной конечной точке для данного экземпляра службы. Обычно эти параметры позволяют разрешить или запретить доступ с конкретных IP-адресов общедоступного Интернета. Это не поддерживается при использовании Студии машинного обучения Azure. Эта возможность поддерживается при использовании пакета SDK или интерфейса командной строки Машинного обучения Azure.

Совет

Студия машинного обучения Azure поддерживается при использовании службы "Брандмауэр Azure". Дополнительные сведения см. в статье Использование рабочей области за брандмауэром для Машинного обучения Azure.

Следующие шаги

Эта статья входит в серию статей, посвященных вопросам защиты рабочего процесса Машинного обучения Azure. Другие статьи этой серии: