Proteggere l'ambiente di ricerca per i dati regolamentati

Data Science Macchine virtuali di Azure
Azure Machine Learning
Azure Data Factory

Questa architettura mostra un ambiente di ricerca sicuro progettato per consentire ai ricercatori di accedere ai dati sensibili con un livello superiore di controllo e protezione dei dati. Questo articolo è applicabile alle organizzazioni vincolate dalla conformità alle normative o da altri rigidi requisiti di sicurezza.

Architettura

Diagramma di un ambiente di ricerca sicuro.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. I proprietari dei dati caricano i set di dati in un account di archiviazione BLOB pubblica. I dati vengono crittografati usando chiavi gestite da Microsoft.

  2. Azure Data Factory usa un trigger che avvia la copia del set di dati caricato in un percorso specifico (percorso di importazione) in un altro account di archiviazione con controlli di sicurezza. L'account di archiviazione può essere raggiunto solo tramite un endpoint privato. È possibile accedervi inoltre da un'entità servizio con autorizzazioni limitate. Data Factory elimina la copia originale rendendo il set di dati non modificabile.

  3. I ricercatori accedono all'ambiente sicuro tramite un'applicazione di streaming usando Desktop virtuale Azure come jump box con privilegi.

  4. Il set di dati nell'account di archiviazione sicuro viene presentato alle DSVM di cui è stato effettuato il provisioning in un ambiente di rete sicuro per le attività di ricerca. Gran parte della preparazione dei dati viene eseguita in tali macchine virtuali.

  5. L'ambiente sicuro include l'ambiente di calcolo di Azure Machine Learning che può accedere al set di dati tramite un endpoint privato per gli utenti per le funzionalità di Azure Machine Learning, ad esempio per eseguire il training, distribuire, automatizzare e gestire modelli di Machine Learning. A questo punto, vengono creati modelli che soddisfano le linee guida delle normative. Tutti i dati del modello vengono de-identificati rimuovendo le informazioni personali.

  6. I modelli o i dati non identificati vengono salvati in una posizione separata nell'archiviazione sicura (percorso di esportazione). Quando vengono aggiunti nuovi dati al percorso di esportazione, viene attivata un'app per la logica. In questa architettura, l'app per la logica si trova all'esterno dell'ambiente sicuro perché nessun dato viene inviato all'app per la logica. L'unica funzione prevede l'invio di una notifica e l'avvio del processo di approvazione manuale.

    L'app avvia un processo di approvazione con la richiesta di revisione dei dati che vengono accodati per l'esportazione. I revisori manuali verificano che i dati sensibili non vengano esportati. Dopo il processo di revisione, i dati vengono approvati o rifiutati.

    Nota

    Se non è necessario un passaggio di approvazione per l'esfiltrazione, è possibile omettere il passaggio dell'app per la logica.

  7. Se i dati non identificati vengono approvati, vengono inviati all'istanza di Data Factory.

  8. Data Factory sposta i dati nell'account di archiviazione pubblico in un contenitore separato per consentire a ricercatori esterni di accedere ai dati e ai modelli esportati. In alternativa, è possibile effettuare il provisioning di un altro account di archiviazione in un ambiente con sicurezza inferiore.

Componenti

Questa architettura è costituita da diversi servizi di Azure che ridimensionano le risorse in base alle esigenze. I servizi e i relativi ruoli sono descritti di seguito. Per i collegamenti alla documentazione del prodotto per iniziare a usare questi servizi, vedere Passaggi successivi.

Componenti di base del carico di lavoro

Ecco i componenti di base preposti allo spostamento e all'elaborazione dei dati di ricerca.

  • Data Science Virtual Machine (DSVM) di Azure: macchine virtuali configurate con strumenti usati per l'analisi dei dati e machine learning.

  • Azure Machine Learning: usato per eseguire il training, distribuire, automatizzare e gestire i modelli di Machine Learning e gestire l'allocazione e l'uso delle risorse di calcolo di Machine Learning.

  • Ambiente di calcolo di Azure Machine Learning: cluster di nodi usati per eseguire il training e il test di modelli di Machine Learning e intelligenza artificiale. Il calcolo viene allocato su richiesta in base a un'opzione di ridimensionamento automatico.

  • Archiviazione BLOB di Azure: sono disponibili due istanze. L'istanza pubblica viene usata per archiviare temporaneamente i dati caricati dai proprietari dei dati. Archivia anche i dati deidentificati dopo la modellazione in un contenitore separato. La seconda istanza è privata. Riceve i set di dati di training e di test da Machine Learning che vengono usati dagli script di training. La risorsa di archiviazione viene montata come unità virtuale in ogni nodo di un cluster dell'ambiente di calcolo di Machine Learning.

  • Azure Data Factory: sposta automaticamente i dati tra account di archiviazione con livelli di sicurezza diversi per garantire la separazione dei compiti.

  • Desktop virtuale Azure: viene usato come jump box per ottenere l'accesso alle risorse nell'ambiente sicuro con applicazioni di streaming e un desktop completo, in base alle esigenze. In alternativa, è possibile usare Azure Bastion. È opportuno tuttavia avere una conoscenza chiara delle differenze dei controlli di sicurezza tra le due opzioni. Desktop virtuale presenta alcuni vantaggi:

    • Possibilità di trasmettere un'app come Microsoft Visual Studio Code per eseguire notebook sulle risorse di calcolo di Machine Learning.
    • Possibilità di limitare le operazioni di copia e incolla e di acquisizione di schermate.
    • Supporto per l'autenticazione da Microsoft Entra a DSVM.
  • App per la logica di Azure: flusso di lavoro automatizzato con uso limitato di codice per lo sviluppo delle parti trigger e rilascio del processo di approvazione manuale.

Componenti di gestione del comportamento

Questi componenti monitorano continuamente il comportamento del carico di lavoro e del relativo ambiente. Lo scopo è individuare e mitigare i rischi non appena vengono individuati.

  • Microsoft Defender for Cloud: viene usato per valutare il comportamento di sicurezza complessivo dell'implementazione e fornire un meccanismo di attestazione per la conformità alle normative. I problemi rilevati in precedenza durante i controlli o le valutazioni possono essere individuati in anticipo. Usare le funzionalità per tenere traccia dello stato di avanzamento, ad esempio il punteggio di sicurezza e il punteggio di conformità.

  • Microsoft Sentinel è la soluzione SIEM (Security Information and Event Management) e security orchestration automated response (security orchestration, automation, and response). È possibile visualizzare centralmente log e avvisi da diverse origini e sfruttare le funzionalità avanzate di intelligenza artificiale e analisi della sicurezza per rilevare, ricercare, impedire e rispondere alle minacce.

  • Monitoraggio di Azure offre opzioni di osservabilità nell'intero ambiente. È possibile visualizzare metriche, log attività e log di diagnostica dalla maggior parte delle risorse di Azure senza aggiungere alcuna configurazione. Gli strumenti di gestione, ad esempio quelli disponibili in Microsoft Defender for Cloud, eseguono anche il push dei dati di log in Monitoraggio di Azure.

Componenti di governance

  • Criteri di Azure è un servizio che consente di applicare gli standard aziendali e di valutare la conformità su larga scala.

Alternative

  • Questa soluzione usa Data Factory per spostare i dati nell'account di archiviazione pubblico in un contenitore separato per consentire a ricercatori esterni di accedere ai dati e ai modelli esportati. In alternativa, è possibile effettuare il provisioning di un altro account di archiviazione in un ambiente con sicurezza inferiore.
  • Questa soluzione usa Desktop virtuale Azure come jump box per ottenere l'accesso alle risorse nell'ambiente sicuro con applicazioni di streaming e un desktop completo. In alternativa, è possibile usare Azure Bastion. Desktop virtuale offre tuttavia alcuni vantaggi, tra cui la possibilità di trasmettere in streaming un'app, di limitare le operazioni di copia/incolla e di acquisizione di schermate e di supportare l'autenticazione AAC. È anche possibile configurare la VPN da punto a sito per il training offline in locale. Ciò consentirà anche di risparmiare sui costi di avere più macchine virtuali per le workstation.
  • Per proteggere i dati inattivi, questa soluzione crittografa interamente Archiviazione di Azure usando chiavi gestite da Microsoft con crittografia complessa. In alternativa, è possibile usare chiavi gestite dal cliente. Le chiavi devono essere archiviate in un archivio chiavi gestito.

Dettagli dello scenario

Potenziali casi d'uso

Questa architettura è stata originariamente creata per istituti di ricerca di istruzione superiore con requisiti HIPAA (Health Insurance Portability and Accountability Act). Questa progettazione tuttavia può essere usata in qualsiasi settore che richieda l'isolamento dei dati per prospettive di ricerca. Alcuni esempi includono:

  • Settori che elaborano i dati regolamentati in base ai requisiti NIST (National Institute of Standards and Technology)
  • Centri medici che collaborano con ricercatori interni o esterni
  • Servizi bancari e finanziari

Seguendo le linee guida è possibile mantenere il controllo completo dei dati di ricerca, separare i compiti e soddisfare rigorosi standard di conformità alle normative, garantendo al tempo stesso la collaborazione tra i ruoli tipici coinvolti in un carico di lavoro orientato alla ricerca, ovvero proprietari di dati, ricercatori e responsabili approvazione.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

L'obiettivo principale di questa architettura è fornire un ambiente di ricerca sicuro e attendibile che limita rigorosamente l'esfiltrazione dei dati dall'area sicura.

Sicurezza di rete

Il provisioning delle risorse di Azure usate per archiviare, testare ed eseguire il training dei set di dati di ricerca viene effettuato in un ambiente sicuro. Tale ambiente è una rete virtuale di Azure con regole dei gruppi di sicurezza di rete (NSG) per limitare l'accesso, principalmente:

  • Accesso in ingresso e in uscita alla rete Internet pubblica e all'interno della rete virtuale.

  • Accesso a e da porte e servizi specifici. Questa architettura ad esempio blocca tutti gli intervalli di porte ad eccezione di quelli necessari per i servizi di Azure, ad esempio Monitoraggio di Azure. Un elenco completo dei tag di servizio e dei servizi corrispondenti è disponibile in Tag del servizio di rete virtuale.

    Inoltre, l'accesso dalla rete virtuale con Desktop virtuale Azure (AVD) sulle porte limitate ai metodi di accesso approvati viene accettato, viene negato tutto l'altro traffico. Rispetto a questo ambiente, l'altra rete virtuale (con AVD) è relativamente aperta.

La risorsa di archiviazione BLOB principale nell'ambiente sicuro è esterna alla rete Internet pubblica. È accessibile solo all'interno della rete virtuale tramite connessioni endpoint private e firewall Archiviazione di Azure. Viene usato per limitare le reti da cui i client possono connettersi alle condivisioni file di Azure.

Questa architettura usa l'autenticazione basata sulle credenziali per l'archivio dati principale presente nell'ambiente protetto. In questo caso, le informazioni di connessione, ad esempio l'ID sottoscrizione e l'autorizzazione del token, vengono archiviate in un insieme di credenziali delle chiavi. Un'altra opzione consiste nel creare l'accesso ai dati basato sull'identità, in cui viene usato l'account Azure per verificare se si ha accesso al servizio Archiviazione. In uno scenario di accesso ai dati basato sull'identità non vengono salvate credenziali di autenticazione. Per informazioni dettagliate su come usare l'accesso ai dati basato sull'identità, vedere Connessione all'archiviazione usando l'accesso ai dati basato sull'identità.

Il cluster di calcolo può comunicare esclusivamente all'interno della rete virtuale usando l'ecosistema di collegamento privato di Azure e gli endpoint di servizio/privati, anziché usare l'indirizzo IP pubblico per la comunicazione. Assicurarsi di abilitare Nessun indirizzo IP pubblico. Per informazioni dettagliate su questa funzionalità, attualmente in anteprima (a partire dal 7/3/2022), vedere Nessun indirizzo IP pubblico per le istanze di calcolo.

L'ambiente sicuro usa l'ambiente di calcolo di Azure Machine Learning per accedere al set di dati tramite un endpoint privato. Inoltre, è possibile usare Firewall di Azure per controllare l'accesso in uscita dall'ambiente di calcolo di Azure Machine Learning. Per informazioni su come configurare Firewall di Azure per controllare l'accesso all'ambiente di calcolo di Azure Machine Learning, che risiede in un'area di lavoro di Machine Learning, vedere Configurare il traffico di rete in ingresso e in uscita.

Per informazioni su come proteggere un ambiente di Azure Machine Learning, vedere il post di blog Secure Azure Machine Learning Service (AMLS) Environment (Secure Azure Machine Learning Service).

Per i servizi di Azure che non possono essere configurati in modo efficace con endpoint privati o per fornire l'ispezione dei pacchetti con stato, è consigliabile usare Firewall di Azure o un'appliance virtuale di rete di terze parti.

Gestione delle identità

L'accesso alla risorsa di archiviazione BLOB avviene tramite il controllo degli accessi in base al ruolo di Azure.

Desktop virtuale Azure supporta l'autenticazione di Microsoft Entra per DSVM.

Data Factory usa l'identità gestita per accedere ai dati dalla risorsa di archiviazione BLOB. Le DSVM usano l'identità gestita anche per le attività di correzione.

Sicurezza dei dati

Per proteggere i dati inattivi, viene eseguita la crittografia per intero di Archiviazione di Azure usando chiavi gestite da Microsoft con crittografia complessa.

In alternativa, è possibile usare chiavi gestite dal cliente. Le chiavi devono essere archiviate in un archivio chiavi gestito. In questa architettura viene eseguita la distribuzione di Azure Key Vault nell'ambiente sicuro per l'archiviazione dei segreti, ad esempio chiavi di crittografia e certificati. Key Vault è accessibile tramite un endpoint privato dalle risorse nella rete virtuale sicura.

Considerazioni sulla governance

Abilitare Criteri di Azure per applicare gli standard e fornire la correzione automatica per garantire la conformità delle risorse a criteri specifici. I criteri possono essere applicati a una sottoscrizione di progetto o a livello di gruppo di gestione come singolo criterio o come parte di un'iniziativa normativa.

In questa architettura ad esempio è stata applicata la configurazione guest di Criteri di Azure a tutte le macchine virtuali nell'ambito. I criteri possono controllare i sistemi operativi e la configurazione dei computer per le DSVM.

Immagine della macchina virtuale

Le DSVM eseguono immagini di base personalizzate. Per creare l'immagine di base, è consigliabile usare tecnologie come Image Builder di Azure. In questo modo è possibile creare un'immagine ripetibile che può essere distribuita quando necessario.

L'immagine di base potrebbe richiedere aggiornamenti, ad esempio file binari aggiuntivi. Questi file binari devono essere caricati nella risorsa di archiviazione BLOB pubblica e passare attraverso l'ambiente sicuro, in modo molto simile al caricamento dei set di dati da parte dei proprietari dei dati.

Altre considerazioni

La maggior parte delle soluzioni di ricerca è costituita da carichi di lavoro temporanei e non deve essere disponibile per periodi prolungati. Questa architettura è progettata come distribuzione in una singola area con zone di disponibilità. Se i requisiti aziendali richiedono una maggiore disponibilità, replicare questa architettura in più aree. Sono necessari altri componenti, ad esempio un servizio di bilanciamento del carico globale e un database di distribuzione, per instradare il traffico a tutte le aree. Come parte della strategia di ripristino, è consigliabile usare Image Builder di Azure per acquisire e creare una copia dell'immagine di base personalizzata.

Le dimensioni e il tipo di DSVM devono essere appropriati allo stile di lavoro eseguito. Questa architettura è progettata per supportare un singolo progetto di ricerca e la scalabilità viene ottenuta modificando le dimensioni e il tipo delle macchine virtuali e le scelte effettuate per le risorse di calcolo disponibili per Azure Machine Learning.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

Il costo delle DSVM dipende dalla scelta della serie di macchine virtuali sottostante. Poiché il carico di lavoro è temporaneo, il piano a consumo è consigliato per la risorsa dell'app per la logica. Usare il calcolatore prezzi di Azure per stimare i costi in base al dimensionamento stimato delle risorse necessarie.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi