Безопасная среда исследований для подлежащих регулированию данных

Azure Обработка и анализ данных Виртуальные машины
Машинное обучение Azure
Фабрика данных Azure

В этой архитектуре показана безопасная исследовательская среда, позволяющая специалистам получать доступ к конфиденциальным данным с более высоким уровнем контроля и защиты данных. Эта статья применима к организациям, на которых распространяются нормативные требования или другие строгие требования к безопасности.

Архитектура

Схема безопасной исследовательской среды.

Скачайте файл Visio для этой архитектуры.

Поток данных

  1. Владельцы данных отправляют наборы данных в общую учетную запись хранения BLOB-объектов. Данные шифруются с помощью ключей, управляемых Майкрософт.

  2. Фабрика данных Azure использует триггер, который начинает копирование отправленного набора данных в определенное расположение (путь импорта) в другую учетную запись хранения с элементами управления безопасностью. Учетная запись хранения может быть доступна только через частную конечную точку. К ней также обращается субъект-служба с ограниченными разрешениями. Фабрика данных удаляет исходную копию, делая набор данных неизменяемым.

  3. Исследователи получают доступ к защищенной среде через потоковое приложение с помощью Виртуального рабочего стола Azure в качестве привилегированного прыжка.

  4. Набор данных в защищенной учетной записи хранения передается на виртуальные машины для обработки и анализа данных, подготовленные в безопасной сетевой среде, для проведения исследования. Большая часть подготовки данных выполняется на этих виртуальных машинах.

  5. Безопасная среда имеет Машинное обучение Azure вычислительных ресурсов, которые могут получить доступ к набору данных через частную конечную точку для пользователей для Машинное обучение Azure возможностей, таких как обучение, развертывание, автоматизация и управление моделями машинного обучения. На этом этапе создаются модели, соответствующие нормативным требованиям. Все данные модели удаляются путем удаления персональных данных.

  6. Модели или деидентированные данные сохраняются в отдельном расположении безопасного хранилища (пути экспорта). При добавлении новых данных в путь экспорта запускается приложение логики. В этой архитектуре приложение логики находится за пределами безопасной среды, так как данные не отправляются в приложение логики. Его единственная функция — отправить уведомление и запустить процесс утверждения вручную.

    Приложение запускает процесс утверждения, запрашивающий проверку данных, которые помещаются в очередь для экспорта. Проведение проверки вручную гарантирует, что конфиденциальные данные не будут экспортированы. После завершения процесса проверки данные утверждаются или отклоняются.

    Примечание.

    Если шаг утверждения не требуется для кражи, шаг приложения логики может быть опущен.

  7. Если деидентированные данные утверждены, он отправляется в экземпляр Фабрики данных.

  8. Фабрика данных перемещает данные в общую учетную запись хранения в отдельном контейнере, чтобы предоставить внешним исследователям доступ к экспортированным данным и моделям. Кроме того, вы можете подготовить другую учетную запись хранения в среде с более низким уровнем безопасности.

Компоненты

Эта архитектура состоит из нескольких служб Azure, масштабируемых ресурсов в соответствии с необходимостью. Службы и их роли описаны ниже. Ссылки на документацию по продуктам, позволяющую начать работу с этими службами, см. в разделе Следующие шаги.

Основные компоненты рабочей нагрузки

Ниже приведены основные компоненты, которые перемещают и обрабатывают исследуемые данные.

  • Azure Виртуальная машина для обработки и анализа данных (DSVM): виртуальные машины, настроенные с помощью средств, используемых для аналитики данных и машинного обучения.

  • Машинное обучение Azure: Используется для обучения, развертывания, автоматизации и управления моделями машинного обучения, а также управления выделением вычислительных ресурсов машинного обучения и их использованием.

  • Вычислительная среда Машинного обучения Azure: кластер узлов, используемых для обучения и тестирования моделей машинного обучения и искусственного интеллекта. Вычислительная среда выделяется по запросу на основе варианта автоматического масштабирования.

  • Хранилище BLOB-объектов Azure: существует два экземпляра хранилища. Открытый экземпляр используется для временного хранения данных, отправляемых владельцами данных. Кроме того, в нем хранятся обезличенные данные после моделирования в отдельном контейнере. Второй экземпляр является закрытым. Он получает наборы обучающих и тестовых данных от Машинного обучения, которые используются сценариями обучения. Хранилище подключается в качестве виртуального диска на каждом узле кластера Вычислительной среды Машинного обучения.

  • Фабрика данных Azure: автоматически перемещает данные между учетными записями хранения с различным уровнем безопасности, чтобы обеспечить разделение обязанностей.

  • Виртуальный рабочий стол Azure используется в качестве средства перехода для получения доступа к ресурсам в безопасной среде с помощью потоковых приложений и полнофункционального рабочего стола при необходимости. Кроме того, можно использовать Бастион Azure. Однако необходимо четко понимать различия в элементах управления безопасностью между двумя этими вариантами. Виртуальный рабочий стол имеет некоторые преимущества:

    • Возможность потоковой передачи приложения, например Microsoft Visual Studio Code, для запуска записных книжек в вычислительных ресурсах машинного обучения.
    • Возможность ограничения копирования, вставки и захвата экрана.
    • Поддержка проверки подлинности Microsoft Entra в DSVM.
  • Azure Logic Apps предоставляет автоматизированный рабочий процесс с низким объемом написания кода, используемый для разработки компонентов триггера и выпуска для процесса утверждения вручную.

Компоненты для управления состоянием

Эти компоненты постоянно отслеживают состояние рабочей нагрузки и ее среды. Их целью является выявление и устранение рисков сразу после их обнаружения.

  • Microsoft Defender для облака используется для оценки общего состояния безопасности реализуемой системы и предоставления механизма аттестации для обеспечения соответствия нормативным требованиям. Проблемы, которые ранее обнаруживались во время аудита или оценки, могут быть обнаружены раньше. Используйте функции для отслеживания хода выполнения, такие как оценка безопасности и оценка соответствия требованиям.

  • Microsoft Sentinel — это решение для управления сведениями и событиями безопасности (SIEM) и автоматизированное реагирование (оркестрация безопасности, автоматизация и ответ (SOAR)). Вы можете централизованно просматривать журналы и оповещения из различных источников и использовать расширенные возможности искусственного интеллекта и аналитики безопасности для обнаружения и предотвращения угроз, а также для охоты и реагирования на угрозы.

  • Azure Monitor позволяет отслеживать все показатели инфраструктуры. Просматривайте метрики, журналы действий и журналы диагностики большинства ресурсов Azure без дополнительной настройки. Средства управления, например, в Microsoft Defender для облака, также отправляют данные журналов в Azure Monitor.

Компоненты системы управления

  • Политика Azure обеспечивает применение стандартов организации и помогает оценивать их соблюдение.

Альтернативные варианты

  • Это решение использует Фабрику данных для перемещения данных в общую учетную запись хранения в отдельном контейнере, чтобы предоставить внешним исследователям доступ к экспортированным данным и моделям. Кроме того, вы можете подготовить другую учетную запись хранения в среде с более низким уровнем безопасности.
  • Это решение использует Виртуальный рабочий стол Azure в качестве средства перехода для получения доступа к ресурсам в безопасной среде с помощью потоковых приложений и полнофункционального рабочего стола. В качестве другого варианта можно использовать Бастион Azure. Однако Виртуальный рабочий стол имеет некоторые преимущества, в число которых входят возможность потоковой передачи приложений, ограничение копирования/вставки и захвата экрана, а также поддержка проверки подлинности AAC. Вы также можете настроить VPN типа "точка — сеть" для локального обучения. Это также поможет сэкономить затраты на несколько виртуальных машин для рабочих станций.
  • Для защиты неактивных данных это решение шифрует все данные службы хранилища Azure с использованием надежного шифрования и ключей, управляемых корпорацией Майкрософт. Также можно использовать ключи, управляемые клиентом. Ключи должны храниться в управляемом хранилище ключей.

Подробности сценария

Потенциальные варианты использования

Эта архитектура была первоначально создана для научных учреждений высшего образования с требованиями закона о переносимости медицинского страхования и подотчетности (HIPAA). Однако этот проект можно использовать в любой отрасли, в которой требуется изолировать данные для исследования. Некоторыми примерами могут служить:

  • Отрасли, обрабатывающие регулируемые данные в соответствии с требованиями Национального института стандартов и технологий (NIST)
  • Медицинские центры, сотрудничающие с внутренними или внешними исследователями
  • Банковское дело и финансы

Следуя указаниям, вы сможете обеспечить полный контроль над исследуемыми данными, реализовать разделение обязанностей и соблюдать строгие стандарты соответствия нормативным требованиям, а также обеспечить совместную работу между типовыми ролями, участвующими в рабочих нагрузках, ориентированных на исследования, владельцами данных, исследователями и утверждающими.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Основная цель этой архитектуры — обеспечить безопасную и надежную исследовательскую среду, которая строго ограничивает утечку данных из защищенной области.

Безопасность сети

Ресурсы Azure, используемые для хранения, тестирования и обучения наборов данных исследований, подготавливаются в безопасной среде. Эта среда — это виртуальная сеть Azure с правилами групп безопасности сети (NSG) для ограничения доступа, главным образом:

  • Входящий и исходящий доступ к общедоступному Интернету и в виртуальной сети.

  • Входящий и исходящий доступ к конкретным службам и портам. Например, эта архитектура блокирует все диапазоны портов кроме тех, которые необходимы для служб Azure (например, Azure Monitor). Полный список тегов служб и соответствующих служб можно найти в тегах службы виртуальной сети.

    Кроме того, доступ из виртуальной сети с помощью Виртуального рабочего стола Azure (AVD) на портах, ограниченных утвержденными методами доступа, принимается, все остальные трафик запрещены. По сравнению с этой средой другая виртуальная сеть (с AVD) относительно открыта.

Доступ к основному хранилищу BLOB-объектов в безопасной среде через Интернет невозможен. Он доступен только в виртуальной сети через подключения частной конечной точки и служба хранилища Azure брандмауэры. Это хранилище используется для ограничения сетей, из которых клиенты могут подключаться к общим папкам Azure.

Эта архитектура использует проверку подлинности на основе учетных данных для основного хранилища данных, который находится в защищенной среде. В этом случае сведения о подключении, такие как идентификатор подписки и авторизация маркера, хранятся в хранилище ключей. Другой вариант — создать доступ к данным на основе удостоверений, где ваша учетная запись Azure используется для подтверждения доступа к службе служба хранилища. В сценарии доступа к данным на основе удостоверений учетные данные проверки подлинности не сохраняются. Дополнительные сведения об использовании доступа к данным на основе удостоверений см. в Подключение для хранения с помощью доступа к данным на основе удостоверений.

Вычислительный кластер может взаимодействовать исключительно в виртуальной сети с помощью экосистемы Приватный канал Azure и частных конечных точек, а не с помощью общедоступного IP-адреса для обмена данными. Убедитесь, что вы включите общедоступный IP-адрес. Дополнительные сведения об этой функции, которая в настоящее время находится в предварительной версии (с 3.7.2022), см. в разделе "Нет общедоступного IP-адреса для вычислительных экземпляров".

Безопасная среда использует Машинное обучение Azure вычисления для доступа к набору данных через частную конечную точку. Кроме того, Брандмауэр Azure можно использовать для управления исходящим доступом из Машинное обучение Azure вычислений. Сведения о настройке Брандмауэр Azure для управления доступом к Машинное обучение Azure вычислительным ресурсам, которые находятся в рабочей области машинного обучения, см. в статье "Настройка входящего и исходящего сетевого трафика".

Чтобы узнать, как защитить среду Машинное обучение Azure, ознакомьтесь с записью блога, средой secure Машинное обучение Azure Service (AMLS).

Для служб Azure, которые не могут быть эффективно настроены с помощью частных конечных точек или для предоставления проверки пакетов с отслеживанием состояния, рекомендуется использовать Брандмауэр Azure или виртуальную виртуальную (модуль) сторонней сети (NVA).

Управление удостоверениями

Для доступа к хранилищу BLOB-объектов используется управление доступом на основе ролей (RBAC).

Виртуальный рабочий стол Azure поддерживает проверку подлинности Microsoft Entra в DSVM.

Фабрика данных использует управляемое удостоверение для доступа к данным из хранилища BLOB-объектов. DSVM также использует управляемое удостоверение для задач исправления.

Безопасность данных

Для защиты неактивных данных все данные службы хранилища Azure шифруются с использованием надежного шифрования и ключей, управляемых корпорацией Майкрософт.

Также можно использовать ключи, управляемые клиентом. Ключи должны храниться в управляемом хранилище ключей. В этой архитектуре Azure Key Vault развертывается в безопасной среде для хранения секретов, таких как ключи шифрования и сертификаты. Key Vault осуществляется через частную конечную точку ресурсами в безопасной виртуальной сети.

Рекомендации по системе управления

Включите политику Azure, чтобы обеспечить соблюдение стандартов и автоматическое исправление для соответствия ресурсов конкретным политикам. Политики можно применять к подписке проекта или на уровне группы управления как единую политику или как часть нормативной инициативы.

Например, в этой архитектуре ко всем виртуальным машинам в области была применена гостевая конфигурация службы "Политика Azure". Политика может выполнять аудит операционных систем и конфигураций для виртуальных машин для обработки и анализа данных.

Образ виртуальной машины

На виртуальных машинах для обработки и анализа данных запускаются пользовательские базовые образы. Для создания базового образа мы настоятельно рекомендуем использовать такие технологии, как Конструктор образов виртуальных машин Azure. Это позволяет создать воспроизводимый образ, который может быть развернут при необходимости.

Для базового образа могут потребоваться обновления, например, дополнительные двоичные файлы. Эти двоичные файлы должны быть отправлены в общедоступное хранилище BLOB-объектов и должны пройти через безопасную среду подобно наборам данных, отправляемыми владельцами данных.

Другие вопросы

Большинство решений для исследования — это временные рабочие нагрузки, которые не должны быть доступны в течение длительного периода времени. Эта архитектура подразумевает развертывание в одном регионе с зонами доступности. Если бизнес-требования включают использование более высокого уровня доступности, следует реплицировать эту архитектуру в несколько регионов. Для маршрутизации трафика во все эти регионы потребуются другие компоненты, такие как глобальная подсистема балансировки нагрузки и распространитель. В рамках стратегии восстановления рекомендуется создавать копии настраиваемых базовых образов с помощью Конструктора образов виртуальных машин Azure.

Размер и тип виртуальных машин для обработки и анализа данных должны соответствовать характеру выполняемой работы. Эта архитектура предназначена для поддержки одного исследовательского проекта и масштабируемости достигается путем корректировки размера и типа виртуальных машин и выборов для вычислительных ресурсов, доступных для Машинное обучение Azure.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

Стоимость DSVM зависит от выбора базовой серии виртуальных машин. Так как рабочая нагрузка является временной, план потребления рекомендуется для ресурса приложения логики. Используйте Калькулятор цен Azure для оценки затрат на основе предполагаемого размера требуемых ресурсов.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Следующие шаги