Консорциум данных о работоспособности в Azure

Фабрика данных Azure
Azure Data Lake Storage
Azure Data Share
Azure Databricks
База данных SQL Azure

Это решение для консорциумов данных использует компоненты Azure. Решение выполняет следующие задачи:

  • обеспечить способ совместного доступа к данным для нескольких организаций;
  • централизовать оркестрацию данных;
  • обеспечить безопасность данных.
  • гарантировать конфиденциальность данных пациентов;
  • поддерживать взаимодействие данных;
  • обеспечить возможность настройки, чтобы адаптировать решение для нужд различных организаций.

Архитектура

Architecture diagram showing how members of a consortium share data.

Поля с пунктирной границей представляют источники данных, хранилище данных членов, хранилище данных консорциума и общие службы. В поле источников отображаются источники данных в виде цветных значков. Поля хранилищ данных членов и консорциума содержат внутренние поля. Одно внутреннее поле в хранилище данных членов содержит цветные значки компонентов Azure, используемых для хранения и анализа данных. В другом поле содержатся значки членов, пользующихся общим доступом к данным. В первом внутреннем поле хранилища данных консорциума отображаются значки хранилищ данных. Второе внутреннее поле содержит значки компонентов загрузки данных Azure. Помимо этого, в поле консорциума содержатся такие же два поля, что и в хранилище данных членов. Стрелки соединяют все поля слева направо. Одна последняя стрелка возвращается из поля общего доступа консорциума к полю хранилища данных членов. В поле ниже отображаются значки общих служб.

Скачайте файл Visio для этой архитектуры.

Поток данных

  1. Необработанные данные исходят из локальных и сторонних источников. Члены консорциума загружают эти данные в любую из этих служб хранилища в Azure Data Share:

  2. Консорциум запрашивает у участников общий доступ к данным. Как поставщики данных, участники могут либо поделиться моментальными снимками, либо применять общий доступ на месте.

  3. Консорциум, в качестве потребителя данных, получает данные членов. Они вводятся в Data Lake Storage в Azure Data Share консорциума для дальнейшего преобразования.

  4. Фабрика данных Azure и Azure Databricks очищают данные-члены и преобразуют их в общий формат.

  5. Консорциум объединяет их и сохраняет в службе. Структура и объем данных определяют тип наиболее подходящей службы хранилища. Помимо прочих, возможны следующие варианты:

    • Azure Synapse Analytics
    • База данных SQL Azure
    • Хранилище озера данных Azure
    • Обозреватель данных Azure
  6. Как производитель общего ресурса данных, консорциум предлагает членам получить их. Члены могут принимать данные в виде моментального снимка или с помощью общего доступа на месте.

  7. Как потребители данных, члены получают общие данные. Данные вводятся в хранилище членов для исследования и анализа.

По всей системе:

Компоненты

Это решение использует следующие компоненты.

Платформы здравоохранения

  • Электронные медицинские записи (EHR) — это цифровые версии информации о пациентов в реальном времени.

  • Ресурсы быстрого взаимодействия в сфере здравоохранения (FHIR) — это стандарт для обмена данными в сфере здравоохранения, публикуемый Health Level Seven International (HL7).

  • Интернет медицинских вещей (IoMT) — это совокупность медицинских устройств и приложений, которые подключаются к ИТ-системам через компьютерные сети.

  • Данные геномики предоставляют сведения о том, как гены взаимодействуют друг с другом и со средой.

  • Данные визуализации включают изображения, производимые приборами радиологической и кардиологической визуализации, радиотерапии и другими устройствами.

  • Управление отношениями с клиентами (CRM), процедуры выставления счетов и сторонние системы предоставляют данные пациентов.

Компоненты Azure

  • Azure Data Share предоставляет способ безопасного совместного использования данных несколькими организациями. Благодаря этой службе поставщики данных сохраняют контроль над данными, к которым открывают общий доступ. Вы можете легко управлять и отслеживать доступ к данным. Data Share также упрощает обогащение сценариев аналитики и искусственного интеллекта, объединяя данные различных членов консорциума.

  • Azure Synapse Analytics — это служба аналитики для хранилищ данных и систем обработки больших данных. С ее помощью можно запрашивать данные в бессерверных и подготовленных ресурсах, а также ресурсах по запросу. Azure Synapse Analytics подходит для больших объемов структурированных данных.

  • База данных SQL Azure — это полностью управляемая платформа как служба (PaaS). С помощью автоматизированных функций, реализованных на основе искусственного интеллекта, База данных SQL Azure выполняет функции СУБД, такие как обновление, исправление, резервное копирование и мониторинг. Эта служба хорошо подходит для структурированных данных.

  • Data Lake Storage — это великолепно масштабируемое и защищенное озеро данных для рабочих нагрузок аналитических данных с высокой производительностью. Эта служба может управлять несколькими петабайтами информации, поддерживая при этом сотни гигабит пропускной способности. Data Lake Storage позволяет хранить структурированные и неструктурированные данные нескольких членов в одном расположении.

  • Azure Data Explorer — это быстрая, полностью управляемая служба аналитики данных. Эту службу можно использовать для анализа больших объемов данных в режиме реального времени. Azure Data Explorer обрабатывает разнообразные потоки данных из приложений, веб-сайтов, устройств Интернета вещей и других источников. Azure Data Explorer хорошо подходит для совместного использования телеметрии потоковой передачи и данных журналов на месте.

  • Фабрика данных Azure — это гибридная служба интеграции данных. Вы можете использовать полностью управляемое бессерверное решение для рабочих процессов интеграции данных и преобразования. Фабрика данных предлагает пользовательский интерфейс без необходимости программирования и простую в использовании панель мониторинга. В этом решении конвейеры фабрики данных принимают данные из разнородных общих ресурсов.

  • Azure Databricks — это платформа аналитики данных. Созданная на основе новейшей распределенной системы обработки Apache Spark, Azure Databricks поддерживает комфортную интеграцию с библиотеками с открытым исходным кодом. Это решение использует записные книжки Azure Databricks для преобразования всех данных членов в общий формат.

  • Идентификатор Microsoft Entra — это мультитенантная облачная служба управления удостоверениями и доступом.

  • Azure Key Vault безопасно сохраняет и управляет доступом к секретам, таким как ключи API, пароли, сертификаты и криптографические ключи. Эта облачная служба также управляет сертификатами безопасности.

  • Azure Pipelines автоматически выполняет сборку и тестирует проекты кода. Эта служба Azure DevOps сочетает непрерывную интеграцию (CI) и непрерывную поставку (CD). Используя эти методики, Azure Pipelines непрерывно проверяет и выполняет сборку кода, а затем отправляет его в любые целевые объекты.

  • Microsoft Defender для облака предоставляет единое управление безопасностью и расширенную защиту от угроз для рабочих нагрузок гибридного облака.

Альтернативные варианты

Azure Data Share предоставляет набор различных вариантов хранения данных. Выбор службы зависит от метода совместного использования, а также объема и типа данных.

  • Для совместного использования моментальных снимков пакетных данных используйте любую из следующих служб:

    • Azure Synapse Analytics
    • База данных SQL
    • Data Lake Storage
    • Хранилище BLOB-объектов Azure

    Сведения об объединении различных типов данных см. в статье Архитектура современных хранилищ данных.

  • Azure Data Explorer хорошо подходит для совместного использования телеметрии потоковой передачи и данных журналов на месте. Дополнительные сведения об анализе данных из различных источников см. в статье Интерактивная аналитика в Azure Data Explorer.

  • Бывают случаи, когда необходимо работать с объемными или нереляционными данными. Некоторые наборы данных не используют стандартизированный формат. В таких случаях Хранилище BLOB-объектов или Azure Data Lake Storage подойдут для обмена данными с Data Share лучше, чем Azure Synapse Analytics или База данных SQL. Дополнительные сведения об эффективном хранении медицинских данных см. в статье Решения для хранения медицинских данных.

Если невозможно воспользоваться Data Share, рекомендуется использовать виртуальную частную сеть (VPN). Вы можете использовать VPN типа "сеть — сеть" для обмена данными между хранилищами данных членов и консорциума.

Подробности сценария

Традиционные клинические испытания могут быть сложными, трудоемкими и дорогостоящими. Для решения этой проблемы все больше медицинских организаций объединенными усилиями создают консорциумы данных для проведения клинических испытаний.

Консорциумы данных предоставляют множество преимуществ для сферы здравоохранения:

  • высокая доступность исследовательских данных;
  • новые источники доходов;
  • низкозатратные регулятивные решения благодаря быстрому доступу к данным;
  • улучшение безопасности и здоровья пациентов благодаря ускорению инноваций.

Потенциальные варианты использования

Это решение подойдет для множества различных медицинских специалистов:

  • организации, которые планируют лечение используя реальные данные наблюдения, такие как результативность лечения;
  • врачи, специализирующиеся на персонализированной или точной медицине;
  • специалисты по дистанционной медицине, которым нужен быстрый доступ к данным;
  • исследователи, работающие с данными геномики.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Технологии в этом решении отвечают требованиям большинства компаний к безопасности, масштабируемости и доступности.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Принимая во внимание секретный характер медицинской информации, за безопасность данных отвечает сразу несколько компонентов.

  • Функции безопасности в Azure Data Share защищают данные следующими способами:

    • шифрование неактивных данных там, где эту функцию поддерживает хранилище;
    • шифрование данных во время передачи с использованием протокола TLS 1,2;
    • шифрование метаданных общего ресурса данных при передаче и в неактивном состоянии;
    • отказ от хранения содержимого общих данных клиента.
  • Azure Synapse Analytics предлагает комплексную модель безопасности. Можно использовать свои детализированные элементы управления для защиты данных на каждом уровне, от отдельных ячеек до целых баз данных.

  • База данных SQL использует многоуровневый подход к защите данных клиента. Стратегия охватывает следующие области:

    • Сетевая безопасность
    • Управление доступом
    • Защита от угроз
    • Защита информации
  • Data Lake Storage обеспечивает контроль доступа. Модель поддерживает следующие типы управления:

    • Управление доступом на основе ролей в Azure (RBAC)
    • Списки управления доступом (ACL) для интерфейса переносимой операционной системы (POSIX)
  • Azure Data Explorer защищает данные следующими способами:

    • Использует идентификаторы Microsoft Entra— управляемые удостоверения для ресурсов Azure.
    • использование RBAC для разделения обязанностей и ограничения доступа;
    • блокирование трафика, поступающего из сегментов сети за пределами Azure Data Explorer;
    • защита данных и облегченное выполнение обязательств с помощью Шифрования дисков Azure. Эта служба обеспечивает шифрование томов для дисков данных виртуальных машин и ОС. Шифрование дисков Azure также интегрируется с Key Vault, которое шифрует секретные данные с помощью ключей, управляемых корпорацией Майкрософт, или ключей, управляемых клиентом.

Доступность

Это решение использует развертывание в одном регионе. Для некоторых сценариев требуется развертывание в нескольких регионах для обеспечения высокой доступности, возможности аварийного восстановления или более близкого размещения. В таких случаях следующие службы предлагают парные регионы Azure для обеспечения высокой доступности:

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

Цены на это решение зависят от нескольких факторов:

  • выбранные службы;
  • производительность и пропускная способность системы;
  • используемые преобразования данных;
  • уровень непрерывности бизнес-процессов;
  • Уровень аварийного восстановления

Дополнительные сведения см. на странице с ценами.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Основные авторы:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги

Определите, как настроить решение, уточнив следующие моменты:

  • доступные источники данных;
  • расположение каждого источника данных;
  • службы Azure, доступные членам для приема исходных данных;
  • вид данных, которые члены передают консорциуму;
  • способы общего доступа: пакеты моментальных снимков или общий доступ к потокам данных на месте;
  • службы Azure, доступные консорциуму для приема общих данных;
  • формат данных членов и необходимость очистки или преобразования;
  • вид данных, которые консорциум передает членам.

Документация по продукту: