Очистка и многопартийная аналитика данных

Статья
10/26/2023

Конфиденциальные вычисления Azure (ACC) предоставляют основу для решений, позволяющих нескольким сторонам совместно работать с данными. Существуют различные подходы к решениям и растущей экосистеме партнеров, которые помогут клиентам Azure, исследователям, специалистам по обработке и анализу данных сотрудничать с данными при сохранении конфиденциальности. В этом обзоре рассматриваются некоторые подходы и существующие решения, которые можно использовать, все работающие в ACC.

Что такое защита данных и моделей?

Решения очистки данных обычно предлагают средства для одного или нескольких поставщиков данных для объединения данных для обработки. Обычно согласован код, запросы или модели, созданные одним из поставщиков или другим участником, например исследователь или поставщик решений. Во многих случаях данные могут рассматриваться как конфиденциальные и нежелательные, чтобы напрямую предоставлять общий доступ другим участникам — независимо от того, является ли другой поставщик данных, исследователь или поставщик решений. Чтобы обеспечить безопасность и конфиденциальность данных и моделей, используемых в чистых комнатах данных, конфиденциальные вычисления можно использовать для шифрования проверки того, что у участников нет доступа к данным или моделям, включая во время обработки. С помощью ACC решения могут обеспечить защиту данных и IP-адреса модели от оператора облака, поставщика решений и участников совместной работы с данными.

Каковы примеры вариантов использования в отрасли?

Благодаря ACC клиенты и партнеры создают конфиденциальность, сохраняя решения для аналитики данных нескольких сторон, иногда называемые "конфиденциальными чистыми" — как чистые решения, уникальные конфиденциальные, так и существующие решения для очистки, которые были конфиденциальными с ПОМОЩЬЮ ACC.

Решение Royal Bank of Canada - Virtual clean room , объединяющее данные торговца с банковскими данными для предоставления персонализированных предложений, используя виртуальные машины конфиденциальных вычислений Azure и AZURE SQL AE в безопасных анклавах.
Scotiabank — доказал использование ИИ на межбанковских денежных потоках для выявления отмывания денег, чтобы пометить экземпляры торговли людьми, используя конфиденциальные вычисления Azure и партнера по решению, непрозрачный.
Novartis Biome — использовал партнерское решение beeKeeperAI, работающее в ACC, чтобы найти кандидатов на клинические испытания для редких заболеваний.
Ведущие поставщики платежей, подключающие данные между банками для мошенничества и обнаружения аномалий.
Службы аналитики данных и решения для чистых помещений с помощью ACC для повышения защиты данных и удовлетворения требований к соответствию требованиям клиентов ЕС и регулированию конфиденциальности.

Почему конфиденциальные вычисления?

Чистые комнаты данных не являются новой концепцией, однако с прогрессом в конфиденциальных вычислениях есть больше возможностей для использования облачных масштабов с более широкими наборами данных, защиты IP-адресов моделей ИИ и возможности лучше соответствовать правилам конфиденциальности данных. В предыдущих случаях некоторые данные могут быть недоступны по таким причинам, как

Конкурентные недостатки или регулирование, предотвращающие обмен данными между отраслевыми компаниями.
Анонимизация снижает качество аналитических сведений о данных или слишком затратно и занимает много времени.
Данные привязаны к определенным расположениям и воздерживаются от обработки в облаке из-за проблем безопасности.
Дорогостоящие или длительные юридические процессы охватывают ответственность, если данные подвергаются или злоупотребляют

Эти реалии могут привести к неполным или неэффективным наборам данных, которые приводят к более слабой аналитике или больше времени, необходимого для обучения и использования моделей искусственного интеллекта.

Что следует учитывать при создании решения для очистки?

Пакетная аналитика и конвейеры данных в режиме реального времени: размер наборов данных и скорость аналитики следует учитывать при проектировании или использовании решения для очистки. Если данные доступны в автономном режиме, их можно загрузить в проверенную и защищенную вычислительные среды для обработки данных на больших участках данных, если не весь набор данных. Эта пакетная аналитика позволяет оценивать большие наборы данных с помощью моделей и алгоритмов, которые не должны предоставлять немедленный результат. Например, пакетная аналитика хорошо работает при выводе машинного обучения на миллионы медицинских записей, чтобы найти лучших кандидатов для клинического испытания. Другие решения требуют аналитических сведений о данных в режиме реального времени, например, когда алгоритмы и модели нацелены на выявление мошенничества в практически реальном времени транзакций между несколькими сущностями.

Участие с нулевым доверием: основной различитель в конфиденциальных чистых комнатах — это возможность не участвовать ни одной стороной, доверенной стороной — от всех поставщиков данных, разработчиков кода и моделей, поставщиков решений и администраторов операторов инфраструктуры. Решения можно предоставить, где можно защитить как данные, так и IP-адрес модели от всех сторон. При подключении или создании решения участники должны учитывать как то, что нужно защитить, так и от кого защитить каждый код, модели и данные.

Федеративное обучение. Федеративное обучение включает создание или использование решения, в то время как модели в клиенте владельца данных и аналитические сведения агрегируются в центральном клиенте. В некоторых случаях модели могут даже выполняться в данных за пределами Azure, с агрегированием модели, все еще выполняющейся в Azure. Во многих случаях федеративное обучение выполняет итерацию данных во многих случаях по мере улучшения параметров модели после агрегирования аналитических сведений. Затраты на итерацию и качество модели должны учитываться в решении и ожидаемых результатах.

Размещение данных и источники: клиенты хранят данные в нескольких облаках и локальных средах. Совместная работа может включать данные и модели из разных источников. Решения cleanroom могут облегчить доступ к данным и моделям, поступающим в Azure из других расположений. Если данные не могут перейти в Azure из локального хранилища данных, некоторые решения очистки могут выполняться на сайте, где находятся данные. Управление и политики можно использовать общим поставщиком решений, где это доступно.

Целостность кода и конфиденциальные реестры. С помощью технологии распределенного реестра (DLT), работающей в конфиденциальных вычислениях Azure, решения можно создавать в сети в разных организациях. Логику кода и правила аналитики можно добавлять только при наличии консенсуса между различными участниками. Все обновления кода записываются для аудита с помощью ведения журнала, защищенного от изменений, с поддержкой конфиденциальных вычислений Azure.

Какие варианты можно приступить к работе?

Предложения платформы ACC, которые помогают включить конфиденциальные чистые комнаты

Свернуть рукава и создать решение для очистки данных непосредственно на этих предложениях службы конфиденциальных вычислений.

Конфиденциальные контейнеры на Экземпляры контейнеров Azure (ACI) и виртуальных машинах Intel SGX с анклавами приложений предоставляют решение для создания решений конфиденциальной очистки.

Конфиденциальные Виртуальные машины (виртуальные машины) предоставляют платформу виртуальных машин для решений конфиденциальной очистки.

Azure SQL AE в безопасных анклавах предоставляет службу платформы для шифрования данных и запросов в SQL, которые можно использовать в многопользовательской аналитике данных и конфиденциальных чистых комнатах.

Конфиденциальная платформа консорциума — это платформа с открытым исходным кодом для создания высокодоступных служб с отслеживанием состояния, использующих централизованные вычислительные ресурсы для удобства использования и производительности, обеспечивая децентрализованное доверие. Она позволяет нескольким сторонам выполнять проверяемые вычисления по конфиденциальным данным, не доверяя друг другу или привилегированному оператору.

Решения партнеров ACC, которые обеспечивают конфиденциальные чистые комнаты

Используйте партнера, создающего решение аналитики данных нескольких сторон на основе платформы конфиденциальных вычислений Azure.

Anjuna предоставляет платформу конфиденциальных вычислений, которая позволяет различным вариантам использования, включая безопасные чистые комнаты, организациям предоставлять общий доступ к данным для совместного анализа, например вычисление кредитных показателей рисков или разработку моделей машинного обучения без предоставления конфиденциальной информации.
BeeKeeperAI позволяет ИИ здравоохранения с помощью безопасной платформы совместной работы для владельцев алгоритмов и управления данными. BeeKeeperAI™ использует аналитику с сохранением конфиденциальности для нескольких институциональных источников защищенных данных в конфиденциальной вычислительной среде. Решение поддерживает сквозное шифрование, безопасные анклавы вычислений и новейшие процессоры SGX Intel для защиты данных и IP-адреса алгоритма.
Decentriq предоставляет чистые комнаты данных SaaS, созданные на основе конфиденциальных вычислений, которые обеспечивают безопасную совместную работу с данными, не предоставляя общий доступ к данным. Чистые комнаты для обработки и анализа данных позволяют гибко анализировать многостороннюю сторону, а чистые комнаты без кода для средств массовой информации и рекламы обеспечивают активацию и аналитику соответствующих аудиторий на основе данных пользователей первой стороны. Конфиденциальные чистые комнаты подробно описаны в этой статье в блоге Майкрософт.
Fortanix предоставляет платформу конфиденциальных вычислений, которая может включать конфиденциальный ИИ, включая несколько организаций, совместно сотрудничающих с многопартийной аналитикой.
Habu предоставляет платформу очистки данных взаимодействия, которая позволяет предприятиям разблокировать совместную аналитику в интеллектуальном, безопасном, масштабируемом и простом способе. Habu подключает децентрализованные данные между отделами, партнерами, клиентами и поставщиками для улучшения совместной работы, принятия решений и результатов.
Mithril Security предоставляет средства, помогающие поставщикам SaaS обслуживать модели искусственного интеллекта внутри безопасных анклавах и предоставлять локальный уровень безопасности и контроля владельцам данных. Владельцы данных могут использовать свои решения SaaS AI, оставаясь совместимыми и управляя данными.
Непрозрачность предоставляет платформу конфиденциальных вычислений для совместной аналитики и искусственного интеллекта, что дает возможность выполнять масштабируемую аналитику, защищая комплексные данные и позволяя организациям соблюдать юридические и нормативные мандаты.
Сейф LiShare предоставляет защищенные политикой зашифрованные комнаты для очистки данных, где доступ к данным доступен для аудита, отслеживаемого и видимого, при этом данные защищены во время совместного доступа к данным с несколькими пользователями.