Procedure consigliate per la distribuzione di Microsoft Purview per l'analisi su scala cloud

La zona di destinazione gestione dei dati è responsabile della governance della piattaforma di analisi su scala cloud. Si basa su Microsoft Purview per offrire la maggior parte delle funzionalità di gestione dei dati.

Nota

Questa guida in questa sezione illustra le configurazioni specifiche per l'analisi su scala cloud. Si tratta di una raccolta di procedure consigliate di Azure per migliorare la governance dei dati usando Microsoft Purview. Il materiale sussidiario integra la documentazione ufficiale di Microsoft Purview.

Panoramica

Microsoft Purview è un servizio unificato per la governance dei dati che semplifica la gestione e la regolamentazione dei dati locali, multi-cloud e SaaS (Software as a Service). Consente di creare una mappa olistica e aggiornata del panorama dei dati con funzionalità di individuazione dei dati automatica, classificazione dei dati sensibili e derivazione dei dati end-to-end. Consente ai curatori dei dati di gestire e proteggere il patrimonio dei dati. Aiuta i consumer di dati a trovare dati di valore e affidabili.

Suggerimento

È consigliabile usare strumenti di terze parti di propria scelta per integrare le funzionalità rimanenti della zona di destinazione di gestione dei dati con Azure attualmente non supportate da Microsoft Purview.

Un account Microsoft Purview viene distribuito all'interno della zona di destinazione di gestione dei dati, che funge da catalogo dati centralizzato. Dalla zona di destinazione della gestione dei dati, Microsoft Purview può comunicare con ogni zona di destinazione dei dati tramite connettività di rete privata usando il peering reti virtuali attraverso la gestione dei dati, le zone di destinazione dei dati e i runtime di integrazione self-hosted. L'individuazione dei prodotti dati negli archivi dati locali e in altri cloud pubblici è ottenuta da più distribuzioni di runtime di integrazione self-hosted.

Impostazione dei conti

Il primo passaggio è la distribuzione di un account Microsoft Purview. Durante la distribuzione della zona di destinazione di gestione dei dati, un singolo account Microsoft Purview viene distribuito automaticamente all'interno della sottoscrizione di gestione dati. L'obiettivo è centralizzare l'intera mappa dei dati in un singolo account Microsoft Purview in tutte le zone di destinazione dei dati. È consigliabile prendere in considerazione un singolo account Microsoft Purview condiviso all'interno della sottoscrizione della zona di destinazione di gestione dei dati per ogni tipo di ambiente.

Oltre all'account Microsoft Purview, viene distribuito anche un gruppo di risorse gestite. Un account di archiviazione gestito e uno spazio dei nomi di Hub eventi gestiti vengono distribuiti all'interno di questo gruppo di risorse e vengono usati per inserire i metadati degli asset di dati tramite analisi. Poiché queste risorse vengono utilizzate dal catalogo Microsoft Purview, non devono essere rimosse. Un'assegnazione di rifiuto del controllo degli accessi in base al ruolo di Azure viene aggiunta automaticamente per tutte le entità a livello di gruppo di risorse al momento della distribuzione.

Prerequisiti

Prima della distribuzione, esaminare i requisiti seguenti all'interno della sottoscrizione relativa alla zona di destinazione per la gestione dei dati:

  • Effettuare esenzioni dai criteri: se si dispone di un'assegnazione di Criteri di Azure esistente che impedisce agli amministratori o alle applicazioni di creare account Archiviazione di Azure, spazio dei nomi Hub eventi di Azure, account Microsoft Purview, zone di Azure DNS privato o endpoint privati di Azure, è necessario applicare Criteri di Azure esenzioni. Le esenzioni sono necessarie, quindi le risorse necessarie possono essere distribuite nella zona di destinazione di gestione dei dati, insieme alla distribuzione di Microsoft Purview.
  • Registrare i provider di risorse: assicurarsi di registrare i provider di risorse di Azure seguenti nella sottoscrizione della zona di destinazione di gestione dei dati:
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

Importante

Per distribuire correttamente la zona di destinazione di gestione dei dati con Microsoft Purview, è necessario soddisfare i prerequisiti. Per altre informazioni su come registrare i provider di risorse, vedere Provider di risorse per i servizi di Azure.

Rete e risoluzione dei nomi

L'analisi su scala cloud usa un endpoint privato di Azure per abilitare l'accesso sicuro al catalogo, basato su collegamento privato di Azure. L'endpoint privato usa gli indirizzi IP dello spazio indirizzi della rete virtuale per l'account Microsoft Purview. Il traffico di rete tra i client nella rete virtuale e l'account Microsoft Purview attraversa la rete virtuale e un collegamento privato nella rete backbone Microsoft. La rete virtuale e il collegamento privato consentono di evitare l'esposizione alla rete Internet pubblica. Per abilitare l'isolamento di rete per scenari di analisi end-to-end, vengono distribuiti più endpoint privati, che consentono la connessione delle origini dati in Azure e delle origini locali tramite il collegamento privato di Azure.

Distribuzione di endpoint privati di Azure

L'account Microsoft Purview viene distribuito all'interno della rete virtuale di Azure all'interno della zona di destinazione di gestione dei dati con diversi endpoint privati:

  • Account: un endpoint privato viene usato per consentire solo le chiamate client a Microsoft Purview che provengono dall'interno della rete privata. È un prerequisito per un endpoint privato del portale.

  • Portale: un endpoint privato è progettato per fornire connettività privata al portale di governance di Microsoft Purview. Il portale di governance di Microsoft Purview è l'interfaccia utente di gestione che consente di accedere e gestire Microsoft Purview da un Web browser.

  • Gli endpoint privati di inserimento vengono usati per analizzare le origini dati IaaS e PaaS di Azure all'interno della rete virtuale di Azure e le origini dati locali tramite una connessione privata. Questo metodo garantisce l'isolamento della rete per i metadati che si spostano dalle origini dati a Microsoft Purview Data Map.

Diagram of Microsoft Purview Networking.

Importante

Per analizzare correttamente le origini dati in Microsoft Purview, è necessario distribuire un runtime di integrazione self-hosted all'interno della stessa rete virtuale in cui vengono distribuiti gli endpoint privati di inserimento di Microsoft Purview, che possono trovarsi all'interno della zona di destinazione di gestione dei dati o di qualsiasi zona di destinazione dei dati.

Per altre informazioni sulla rete della zona di destinazione per la gestione dei dati, vedere Rete di analisi su scala cloud.

Per altre informazioni sugli endpoint privati di Microsoft Purview, vedere Usare endpoint privati per l'account Microsoft Purview.

Endpoint privato per l'account e il portale

Per gestire il patrimonio di dati tramite Microsoft Purview e per connettersi al portale di governance di Microsoft Purview, è necessario usare la connettività privata. L'accesso pubblico è limitato all'account Microsoft Purview distribuito all'interno dell'area di destinazione di gestione dei dati per aggiungere maggiore sicurezza. Gli endpoint privati dell'account e del portale vengono distribuiti per fornire connettività privata all'account Microsoft Purview e l'accesso al portale di governance di Microsoft Purview.

Accesso al portale di governance di Microsoft Purview

Per mantenere l'uso del portale di Microsoft Purview tramite connettività privata, è consigliabile negare l'accesso alla rete pubblica nelle impostazioni di Microsoft Purview. Per connettersi al portale di governance di Microsoft Purview, è necessario un jump machine o jump box distribuito all'interno della rete. È possibile usare una jump machine dalla rete ibrida o come macchina virtuale all'interno della zona di destinazione per la gestione dei dati. Una jump machine è un server di accesso remoto con protezione avanzata, che in genere usa il software Servizi Desktop remoto o Secure Shell (SSH) di Microsoft. Le jump machine vengono usate come punto di partenza dagli amministratori che accedono a sistemi critici con tutte le azioni amministrative eseguite dall'host dedicato.

Usare una di queste opzioni per gestire i dati usando Microsoft Purview tramite il portale di governance di Microsoft Purview:

  • Opzione 1: usare una jump machine connessa alla rete aziendale. Per usare questo modello di connettività, è necessario avere connettività tra la rete virtuale in cui viene creato l'endpoint privato del portale Microsoft Purview e la rete aziendale.

    Per altre informazioni sulla topologia di rete e sulla connettività, vedere Rete di Cloud Adoption Framework.

  • Opzione 2: se la connettività ibrida non è disponibile nell'organizzazione, distribuire una macchina virtuale all'interno della zona di destinazione per la gestione dei dati. Distribuire Azure Bastion per connettersi a Microsoft Purview usando una connessione sicura.

Endpoint privati per l'inserimento

Microsoft Purview può analizzare le origini dati in azure o in ambienti locali usando endpoint privati o pubblici. La rete di una zona di destinazione dei dati viene automaticamente associata tramite peering alla rete virtuale della zona di destinazione per la gestione dei dati e alla rete virtuale della sottoscrizione di connettività. In questo modo, le origini dati all'interno delle zone di destinazione dei dati possono essere analizzate tramite la connettività privata.

È consigliabile abilitare endpoint privati per altre origini dati all'interno delle zone di destinazione e analizzare le origini dati usando la connettività privata.

Risoluzione dei nomi

La risoluzione DNS per gli endpoint privati deve essere gestita tramite le zone centrali del DNS privato di Azure. Le zone DNS private seguenti vengono distribuite automaticamente nella distribuzione di Microsoft Purview nella zona di destinazione di gestione dei dati:

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

Se si dispone di un cloud ibrido ed è necessaria la risoluzione dei nomi cross-premise, è importante configurare correttamente i server DNS locali per inoltrare le richieste appropriate al server DNS personalizzato in Azure.

  • Se il DNS personalizzato è già presente in Azure, è necessario configurare server di inoltro condizionali nel server DNS locale che punta a tale DNS.

  • Se non si ha una macchina virtuale DNS personalizzata in Azure, è possibile distribuire il set di scalabilità di macchine virtuali di Azure in cui è già configurato NGINX per inoltrare le richieste DNS all'indirizzo IP DNS fornito da Azure 168.63.129.16. Per altre informazioni, vedere Distribuire un set di scalabilità di macchine virtuali di un proxy DNS NGINX in una rete virtuale esistente.

Suggerimento

Per consentire la risoluzione dei nomi tra la zona di destinazione per la gestione dei dati e le zone di destinazione dei dati, usare le stesse zone DNS private che si trovano all'interno del gruppo di risorse {prefix}-global-dns nella zona di destinazione per la gestione dei dati.

Per altre informazioni relative alla rete e alla risoluzione dei nomi di analisi su scala cloud, vedere Rete di analisi su scala cloud

Gestire l'autenticazione per le origini dati in Microsoft Purview

Microsoft Purview richiede l'accesso al piano di controllo e al piano dati per registrare e analizzare le origini dati.

Registrare le origini dati

Quando si distribuisce l'account Microsoft Purview, viene creata automaticamente un'identità gestita assegnata dal sistema. Viene creato nel tenant di Microsoft Entra e assegnato a questa risorsa. Per leggere ed elencare le risorse di Azure in una sottoscrizione o in un gruppo di risorse durante la registrazione di origini dati in Microsoft Purview, l'identità gestita di Microsoft Purview richiede il ruolo lettore controllo degli accessi in base al ruolo di Azure nell'ambito.

È consigliabile assegnare il ruolo Lettore all'identità gestita di Microsoft Purview in ogni sottoscrizione della zona di destinazione dei dati prima di registrare una di queste origini dati in Microsoft Purview:

  • Archiviazione BLOB di Azure
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • database SQL di Azure
  • Istanza gestita di SQL di Azure
  • Azure Synapse Analytics

Analizzare le origini dati

Prima di eseguire nuove analisi, assicurarsi che i requisiti seguenti siano soddisfatti:

Installare e registrare i runtime di integrazione self-hosted

Distribuire e registrare le macchine virtuali del runtime di integrazione self-hosted per ogni zona di destinazione dei dati. I runtime di integrazione self-hosted sono necessari per analizzare le origini dati, come il database SQL di Azure o qualsiasi origine dati basata su macchina virtuale. Queste origini dati possono trovarsi nell'ambiente locali o in ognuna delle zone di destinazione dei dati. Un runtime di integrazione self-hosted può eseguire attività di copia tra un archivio dati cloud e un archivio dati in una rete privata. Può anche inviare le attività di trasformazione a risorse di calcolo in una rete locale o in una rete virtuale di Azure. Per l'installazione di un runtime di integrazione self-hosted è necessario un computer locale o una macchina virtuale all'interno di una rete privata.

Suggerimento

Per ospitare il runtime di integrazione è consigliabile usare un computer dedicato. Il computer deve essere separato dal server in cui è ospitato l'archivio dati. È inoltre consigliabile pianificare almeno due macchine virtuali di runtime di integrazione self-hosted in ogni zona di destinazione dei dati o ambiente locale.

Per analizzare le origini dati locali, tuttavia, è possibile distribuire le richieste di archiviazione self-hosted all'interno della rete locale, ma per analizzare le origini dati che si trovano in Azure, è necessario distribuire gli IR self-hosted nella stessa rete virtuale degli endpoint privati di inserimento di Microsoft Purview. È consigliabile distribuire nuovi endpoint privati di inserimento e nuovi runtime di integrazione self-hosted per ogni area in cui si trovano le origini dati.

Può essere necessario ospitare un carico di lavoro simultaneo crescente oppure ottenere prestazioni più elevate per il livello attuale del carico di lavoro. In tal caso, è possibile migliorare la scalabilità dell'elaborazione adottando uno di questi approcci:

  • Aumentare le prestazioni quando il processore e la memoria del nodo sono sottoutilizzati
  • Aumentare il numero di runtime di integrazione self-hosted aggiungendo più nodi o set di scalabilità di macchine virtuali

Assegnare l'accesso al piano dati per analizzare le origini dati

Per fornire l'accesso a Microsoft Purview al piano dati e alle origini dati, sono disponibili più opzioni per configurare l'autenticazione:

  • Opzione 1: identità gestita
  • Opzione 2: chiave dell'account o password archiviate come segreto in Azure Key Vault
  • Opzione 3: entità servizio archiviata come segreto in Azure Key Vault

Importante

Per analizzare le origini dati tramite collegamento privato di Azure in Microsoft Purview, è necessario distribuire un runtime di integrazione self-hosted e usare la chiave dell'account/ l'autenticazione SQL o l'entità servizio dalle opzioni per l'autenticazione alle origini dati.

Suggerimento

Quando un'origine dati non può usare collegamento privato di Azure, è consigliabile usare l'identità gestita di Microsoft Purview per analizzare le origini dati. In questo caso, è necessario consentire l'accesso pubblico nelle impostazioni del firewall dell'account Microsoft Purview.

Archiviare segreti all'interno di Azure Key Vault

All'interno della zona di destinazione per la gestione dei dati e delle sottoscrizioni delle zone di destinazione dei dati vengono distribuite più risorse di Azure Key Vault. Le risorse di Azure Key Vault archiviano i segreti correlati alle origini dati dei metadati nella zona di destinazione per la gestione dei dati e nelle origini dati. Un esempio di origine dati è il database SQL di Azure utilizzato da Azure Data Factory oppure Database di Azure per MySQL, usato dalle aree di lavoro di Databricks nella zona di destinazione dei dati.

Connessione zone di destinazione dei dati degli insiemi di credenziali delle chiavi di Azure all'account Microsoft Purview

Microsoft Purview può usare i segreti e le credenziali archiviati negli insiemi di credenziali delle chiavi di Azure. Possono essere usati solo se si crea la connessione di Azure Key Vault all'interno dell'account Microsoft Purview e il segreto viene registrato. Dopo aver aggiunto una nuova zona di destinazione dei dati, è necessario creare una nuova connessione di Azure Key Vault all'interno dell'account Microsoft Purview. La connessione è un'associazione uno-a-uno della risorsa di Azure Key Vault con l'account Microsoft Purview. Consentirà la creazione di credenziali all'interno dell'account Microsoft Purview in base ai segreti archiviati nell'insieme di credenziali delle chiavi di Azure.

Per altre informazioni, vedere Creare connessioni di Azure Key Vault nell'account Microsoft Purview.

Suggerimento

Rimuovere eventuali insiemi di credenziali delle chiavi di Azure inutilizzati per ridurre al minimo le connessioni a Key Vault.

Creare credenziali all'interno di Microsoft Purview

Può essere necessario configurare una credenziale usando un segreto dell'insieme di credenziali delle chiavi per scenari specifici:

  • Per analizzare le origini dati in cui non è possibile usare l'identità gestita di Microsoft Purview come metodo di autenticazione.
  • Per analizzare le origini dati usando un runtime di integrazione self-hosted, i tipi di autenticazione supportati, come le chiavi dell'account, l'autenticazione SQL (password) o l'entità servizio, devono essere archiviati in una credenziale.
  • Per analizzare le origini dati usando un endpoint privato per l'inserimento dati.
  • Per analizzare le origini dati all'interno di una macchina virtuale o di un ambiente locale.

Prima di creare credenziali in Microsoft Purview, l'account Microsoft Purview deve avere accesso ai segreti di Azure Key Vault. Usare i criteri di accesso di Azure Key Vault o il controllo degli accessi in base al ruolo per concedere all'identità del servizio gestito di Microsoft Purview l'accesso necessario. Per altre informazioni su come concedere all'identità del servizio gestito Microsoft Purview l'accesso ad Azure Key Vault e creare credenziali in Microsoft Purview, vedere Credenziali per l'autenticazione di origine in Microsoft Purview.

Ruoli e controllo di accesso di Microsoft Purview

Microsoft Purview ha diversi ruoli predefiniti, ad esempio Lettore dati, Curatore dei dati, Amministratore raccolta, Amministratore origine dati e Autore criteri per gestire il piano dati, che può essere combinato per fornire più privilegi. Ad esempio, il ruolo lettore dati è destinato a ruoli come i responsabili dei dati, gli amministratori dei dati e i responsabili della sicurezza che richiedono l'accesso in sola lettura al patrimonio di dati. Il patrimonio di dati può includere classificazioni, derivazione tramite opzioni di ricerca e report disponibili in Microsoft Purview.

Una volta completata la distribuzione della zona di destinazione della gestione dei dati, usare il modello con privilegi minimi per fornire l'accesso per visualizzare o gestire i metadati in Microsoft Purview.

Importante

I ruoli del piano dati di Microsoft Purview devono essere gestiti all'interno del portale di governance di Microsoft Purview o usando direttamente l'API.

Per altre informazioni sui ruoli di Microsoft Purview, vedere Controllo di accesso nel piano dati di Microsoft Purview

Esaminare l'elenco seguente di persone coinvolte in una distribuzione di analisi su scala cloud. Assegnare loro i ruoli di Microsoft Purview pertinenti in modo che possano contribuire al successo della distribuzione:

Utente Ruolo Ruolo Microsoft Purview consigliato
Proprietari del prodotto Usano Azure per trasformare le soluzioni, offrire flessibilità all'azienda e ottimizzare i processi aziendali. Lettore di dati
Architetti di soluzioni Definiscono soluzioni per superare i confini della rete aziendale. Apprendono come gestire la diagnosi, l'analisi, la progettazione, la distribuzione e l'integrazione dei servizi di Azure.
  • Amministrazione origine dati
  • Curatore dei dati
  • Ingegneri sviluppatori/DevOps Usano Azure DevOps o GitHub per progettare, creare, distribuire, testare e gestire i processi di integrazione continua e recapito continuo. Non applicabile
    Ingegneri della sicurezza Consentono ai team di progettare e implementare un'infrastruttura sicura in Azure in base alle procedure consigliate.
  • Amministrazione di raccolta
  • Lettore di dati
  • Responsabili tecnici e aziendali Sviluppano una conoscenza generale dei servizi di Azure. Controllano i costi del cloud e ottimizzano le operazioni e la flessibilità del team. Non applicabile
    Decision maker e utenti aziendali Usano Azure per accedere a dati analitici utili a livello operativo e si aspettano che vengano mostrati nella forma più rilevante. Usano l'intelligenza artificiale incorporata nelle soluzioni esistenti per ottimizzare i processi aziendali. Lettore di dati
    Data manager Sono responsabili del provisioning e della gestione dell'accesso agli asset di dati. Lettore di dati o Curatore dei dati
    Analisti di dati e prestazioni Usano Azure per individuare e condividere nuovi dati analitici da asset di dati esistenti o da dati ad hoc. Creano trasformazioni di intelligenza artificiale con un clic, utilizzano modelli predefiniti e generano facilmente modelli di Machine Learning.
  • Amministrazione origine dati
  • Lettore di dati
  • Ingegneri dei dati Usano Azure per creare, integrare e gestire i prodotti di analisi e dati. Creano applicazioni e soluzioni abilitate per l'intelligenza artificiale, quando opportuno.
  • Amministrazione origine dati
  • Curatore dei dati
  • Citizen data scientist Creano modelli di Machine Learning con potenti strumenti visivi, di trascinamento della selezione e no code in cui la scrittura di codice non è necessaria.
  • Amministrazione origine dati
  • Curatore dei dati
  • Scienziati dei dati Usano gli strumenti preferiti e i framework di Machine Learning per creare soluzioni di data science scalabili. Accelerano il ciclo di vita di Machine Learning end-to-end.
  • Amministrazione origine dati
  • Curatore dei dati
  • Ingegneri di Machine Learning Abilitano i processi e l'infrastruttura appropriati per la distribuzione e la gestione più semplici dei modelli.
  • Amministrazione origine dati
  • Curatore dei dati
  • Per altre informazioni sui ruoli dati, vedere Ruoli e team.

    Passaggi successivi

    Azure Machine Learning come prodotto dati per l'analisi su scala cloud