Consorzio di dati sanitari in Azure

Azure Data Factory
Azure Data Lake Storage
Condivisione dati di Azure
Azure Databricks
database SQL di Azure

Questa soluzione per un consorzio di dati usa componenti di Azure. Soddisfa questi obiettivi:

  • Consentire a più organizzazioni di condividere i dati.
  • Centralizzare le attività di orchestrazione dei dati.
  • Garantire la sicurezza dei dati.
  • Garantire la privacy dei pazienti.
  • Supportare l'interoperabilità dei dati.
  • Offrire opzioni di personalizzazione per soddisfare i requisiti di organizzazioni specifiche.

Architettura

Architecture diagram showing how members of a consortium share data.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. I dati non elaborati derivano da origini locali e di terze parti. I membri del consorzio caricano questi dati in uno di questi servizi di archiviazione in Azure Condivisione dati:

  2. Il consorzio chiede ai membri di condividere i dati. In quanto producer di dati, i membri possono condividere snapshot o usare la condivisione sul posto.

  3. In quanto consumer di dati, il consorzio riceve i dati condivisi dei membri. Questi dati entrano in Data Lake Storage nella condivisione dati del consorzio per un'ulteriore trasformazione.

  4. Azure Data Factory e Azure Databricks puliscono i dati dei membri e lo trasformano in un formato comune.

  5. Il consorzio combina i dati dei membri e li archivia in un servizio. La struttura e il volume dei dati determinano il tipo di servizio di archiviazione più adatto. Le possibilità includono:

    • Azure Synapse Analytics
    • database SQL di Azure
    • Archiviazione di Azure Data Lake
    • Azure Data Explorer
  6. In quanto producer di condivisione dati, il consorzio invita i membri a ricevere i dati. I membri possono accettare dati di snapshot o dati di condivisione sul posto.

  7. In quanto consumer di dati, i membri ricevono i dati condivisi. I dati entrano in archivi dati dei membri per la ricerca e l'analisi.

In tutto il sistema:

Componenti

In questa soluzione vengono usati i componenti seguenti:

Piattaforme per il settore sanitario

  • Le cartelle cliniche elettroniche sono versioni digitali delle informazioni in tempo reale sui pazienti.

  • Fast Healthcare Interoperability Resources (FHIR) è uno standard per lo scambio di dati sanitari pubblicato da Health Level Seven International (HL7).

  • Internet of Medical Things (IoMT) è la raccolta di dispositivi e app medicali che si connettono a sistemi IT tramite reti di computer online.

  • I dati di genomica forniscono informazioni sull'interazione dei geni tra loro e con l'ambiente.

  • I dati di imaging includono le immagini prodotte tramite radiologia, imaging cardiovascolare, radioterapia e altri dispositivi.

  • I sistemi CRM (Customer Relationship Management), di fatturazione e di terze parti forniscono dati sui pazienti.

Componenti di Azure

  • Azure Condivisione dati consente a più organizzazioni di condividere in modo sicuro i dati. Con questo servizio, i provider di dati mantengono il controllo dei dati che condividono. È semplice gestire e monitorare chi ha condiviso i dati e in quale momento. Condivisione dati semplifica anche l'arricchimento degli scenari di analisi e di intelligenza artificiale combinando i dati di membri diversi.

  • Azure Synapse Analytics è un servizio di analisi per data warehouse e sistemi di Big Data. Con questo prodotto è possibile eseguire query sui dati con risorse serverless su richiesta o con risorse di cui è stato effettuato il provisioning. Azure Synapse Analytics è particolarmente indicato per volumi elevati di dati strutturati.

  • database SQL di Azure è un motore di database PaaS (Platform as a Service) completamente gestito. Grazie a funzionalità automatizzate basate su intelligenza artificiale, Database SQL gestisce le funzioni di gestione di database, come aggiornamento, applicazione di patch, backup e monitoraggio. Questo servizio è particolarmente adatto per i dati strutturati.

  • Data Lake Storage è un servizio di archiviazione altamente scalabile e sicuro per carichi di lavoro di analisi ad alte prestazioni. Questo servizio è in grado di gestire diversi petabyte di informazioni supportando al tempo stesso centinaia di gigabit di velocità effettiva. Data Lake Storage offre la possibilità di archiviare dati strutturati e non strutturati di diversi membri un'unica posizione.

  • Esplora dati di Azure è un servizio di analisi dei dati veloce e completamente gestito. È possibile usare questo servizio per l'analisi in tempo reale su grandi volumi di dati. Esplora dati di Azure è in grado di gestire flussi di dati eterogenei provenienti da applicazioni, siti Web, dispositivi IoT e altre origini. Esplora dati di Azure è ideale per la condivisione sul posto dei dati di telemetria e dei log in streaming.

  • Azure Data Factory è un servizio di integrazione dei dati ibrido. È possibile usare questa soluzione serverless completamente gestita per i flussi di lavoro di integrazione e trasformazione dei dati. Data Factory offre un'interfaccia utente senza codice e un pannello di monitoraggio facile da usare. In questa soluzione le pipeline di Data Factory inseriscono i dati provenienti da condivisioni dati di membri diversi.

  • Azure Databricks è una piattaforma di analisi dei dati. Basata sul sistema di elaborazione distribuito Apache Spark più recente, la piattaforma Azure Databricks è perfettamente integrabile con librerie open source. Questa soluzione usa i notebook di Azure Databricks per trasformare tutti i dati dei membri in un formato comune.

  • Microsoft Entra ID è un servizio di gestione delle identità e degli accessi multi-tenant basato sul cloud.

  • Azure Key Vault archivia in modo sicuro i segreti e ne controlla l'accesso, ad esempio chiavi API, password, certificati e chiavi crittografiche. Questo servizio cloud gestisce anche i certificati di sicurezza.

  • Azure Pipelines compila e testa automaticamente i progetti di codice. Questo servizio di Azure DevOps combina integrazione continua (CI) e distribuzione continua (CD). Usando queste procedure, Azure Pipelines testa e compila in modo costante e coerente il codice e lo invia a qualsiasi destinazione.

  • Defender for Cloud fornisce funzionalità unificate di gestione della sicurezza e Advanced Threat Protection per i carichi di lavoro del cloud ibrido.

Alternative

Con Condivisione dati esistono molte alternative per l'archiviazione dei dati. La scelta del servizio dipende dal metodo di condivisione, oltre che dal volume e dal tipo di dati:

  • Per la condivisione di snapshot dei dati batch, usare uno di questi servizi:

    • Azure Synapse Analytics
    • Database SQL
    • Data Lake Storage
    • Archiviazione BLOB di Azure

    Per informazioni sulla combinazione di tipi diversi di dati, vedere Architettura moderna di data warehouse.

  • Per la condivisione sul posto di dati di telemetria e di log in streaming, usare Esplora dati di Azure. Per altre informazioni sull'analisi dei dati provenienti da varie origini, vedere Analisi interattiva di Esplora dati di Azure.

  • Alcuni set di dati sono di grandi dimensioni o non relazionali. Alcuni non contengono dati in formati standardizzati. Per questi tipi di set di dati, Archiviazione BLOB o Azure Data Lake Storage sono più indicati rispetto ad Azure Synapse Analytics e Database SQL per lo scambio di dati con Condivisione dati. Per altre informazioni sull'archiviazione efficiente dei dati medici, vedere Soluzioni di archiviazione di dati medici.

Se Condivisione dati non è un'opzione fattibile, valutare in alternativa una rete privata virtuale (VPN). È possibile usare una VPN da sito a sito per trasferire dati tra gli archivi dati dei membri e del consorzio.

Dettagli dello scenario

Gli studi clinici tradizionali possono essere complessi e dispendiosi in termini di tempo e costi. Per risolvere questi problemi, un numero crescente di organizzazioni sanitarie collabora per creare consorzi di dati per l'esecuzione di studi clinici.

I consorzi di dati offrono diversi vantaggi alle organizzazioni sanitarie:

  • Rendono disponibili dati per la ricerca.
  • Forniscono nuovi flussi di ricavi.
  • Portano a decisioni normative a costi contenuti grazie all'accesso rapido ai dati.
  • Garantiscono la salute e la sicurezza dei pazienti accelerando l'innovazione.

Potenziali casi d'uso

Molte tipologie di professionisti del settore sanitario possono trarre vantaggio da questa soluzione:

  • Organizzazioni che usano dati basati su osservazioni reali, come i risultati clinici, per determinare i trattamenti.
  • Medici specializzati in farmaci personalizzati o di precisione.
  • Provider di servizi di telemedicina che necessitano di facile accesso ai dati dei pazienti.
  • Ricercatori che lavorano con i dati genomici.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Le tecnologie di questa soluzione soddisfano i requisiti della maggior parte delle aziende in termini di sicurezza, scalabilità e disponibilità.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

A causa della riservatezza delle informazioni mediche, diversi componenti svolgono un ruolo nella protezione dei dati:

  • Le funzionalità di sicurezza di Condivisione dati proteggono i dati in questi modi:

    • Crittografia dei dati inattivi, supportata dall'archivio dati sottostante.
    • Crittografia dei dati in transito tramite TLS (Transport Layer Security) 1.2.
    • Crittografia dei metadati relativi a una condivisione di dati inattivi e in transito.
    • I contenuti dei dati dei clienti condivisi non vengono archiviati.
  • Azure Synapse Analytics offre un modello di sicurezza completo. È possibile usare i controlli con granularità fine per proteggere i dati a ogni livello, da singole celle a interi database.

  • Database SQL usa un approccio a più livelli per la protezione dei dati dei clienti. La strategia riguarda queste aree:

    • Sicurezza di rete
    • Gestione degli accessi
    • Protezione dalle minacce
    • Protezione delle informazioni
  • Data Lake Storage fornisce il controllo di accesso. Il modello supporta questi tipi di controlli:

    • Controllo degli accessi in base al ruolo di Azure
    • Elenchi di controllo di accesso POSIX (Portable Operating System Interface)
  • Esplora dati di Azure protette i dati in questi modi:

    • Usa le identità gestite dall'ID Di Microsoft Entra per le risorse di Azure.
    • Usa il controllo degli accessi in base al ruolo per separare i compiti e limitare l'accesso.
    • Blocca il traffico proveniente da segmenti di rete esterni a Esplora dati di Azure.
    • Protegge i dati e consente di soddisfare gli impegni usando Crittografia dischi di Azure. Questo servizio fornisce la crittografia dei volumi per i dischi dati delle macchine virtuali e il sistema operativo. Crittografia dischi di Azure si integra anche con Key Vault, che crittografa i segreti con chiavi gestite da Microsoft o chiavi gestite dal cliente.

Disponibilità

Questa soluzione usa una distribuzione ad area singola. Alcuni scenari richiedono una distribuzione multiarea per requisiti di disponibilità elevata, ripristino di emergenza o prossimità. In questi casi, i servizi seguenti offrono aree di Azure abbinate per la disponibilità elevata:

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

I prezzi di questa soluzione dipendono da diversi fattori:

  • I servizi scelti
  • La capacità e la velocità effettiva del sistema
  • Le trasformazioni applicate ai dati
  • Il livello di continuità aziendale
  • Il livello di ripristino di emergenza

Per altre informazioni, vedere i dettagli sui prezzi.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

Stabilire come personalizzare la soluzione chiarendo questi punti:

  • Le origini dati disponibili
  • La posizione di ogni origine dati
  • Quali servizi di Azure possono usare i membri per ricevere i dati di origine
  • Quali dati possono condividere i membri con il consorzio
  • In che modo i membri possono condividere i dati: in batch come snapshot o come flussi di dati con condivisione sul posto
  • Quali servizi di Azure può usare il consorzio per ricevere i dati condivisi
  • Il formato dei dati dei membri e se è necessario pulirli o trasformarli
  • Quali dati può condividere il consorzio con i membri

Documentazione sui prodotti: