Creare un servizio Azure Synapse Link for Dataverse con Azure Data Lake

Articolo
04/20/2024

Puoi usare il servizio Azure Synapse Link per connettere i dati Microsoft Dataverse a Azure Data Lake Storage Gen2 per abilitare vari scenari di analisi. Questo articolo mostra come eseguire le seguenti attività:

Connettere i dati di Dataverse all'account Azure Data Lake Storage Gen2 con il servizio Azure Synapse Link.
Gestire tabelle Dataverse incluse nel servizio Azure Synapse Link.
Monitorare Azure Synapse Link.
Scollegare Azure Synapse Link.
Ricollegare Azure Synapse Link.
Visualizzare i dati in Azure Data Lake e comprendere la struttura dei file.

Nota

Azure Synapse Link for Dataverse era precedentemente noto come Export to data lake. Il servizio è stato rinominato a partire da maggio 2021 e continuerà a esportare dati in Azure Data Lake nonché in Azure Synapse Analytics.

Prerequisiti

Azure Data Lake Storage Gen2: devi avere un account Azure Data Lake Storage Gen2 e accedere con il ruolo Proprietario e Collaboratore dati BLOB di archiviazione. L'account di archiviazione deve abilitare Spazio dei nomi gerarchico sia per la configurazione iniziale che per la sincronizzazione delta. Consenti l'accesso alla chiave dell'account di archiviazione è obbligatorio solo per la configurazione iniziale. È consigliabile specificare l'impostazione di replica su Archiviazione con ridondanza geografica e accesso in lettura.

Nota

L'account di archiviazione deve essere creato nello stesso tenant Microsoft Entra del tenant Power Apps.
L'account di archiviazione deve essere creato nella stessa area geografica dell'ambiente Power Apps in cui utilizzerai la funzionalità.
Per impostazione predefinita, devi abilitare l'accesso alla rete pubblica per le risorse di Azure sia per l'installazione iniziale che per la sincronizzazione delta. Per impostare Abilitato da reti virtuali e indirizzi IP selezionati per l'account di archiviazione collegato in modo da concedere l'accesso solo da reti virtuali e indirizzi IP selezionati o per usare endpoint privati, è necessario creare un collegamento a Synapse con identità gestite. Usare le identità gestite per Azure con Azure Data Lake Storage
Devi avere il ruolo di Lettore per accedere al gruppo di risorse con l'account di archiviazione.
Per collegare l'ambiente a Azure Data Lake Storage Gen2, devi disporre del ruolo di sicurezza Amministratore di sistema di Dataverse.
Solo le tabelle con il rilevamento delle modifiche abilitato possono essere esportate.

Connettere Dataverse a Azure Data Lake Storage Gen2

Accedi a Power Apps e seleziona l'ambiente preferito.
Nel riquadro di spostamento sinistro seleziona Azure Synapse Link. Se l'elemento non si trova nel riquadro del pannello laterale, seleziona …Altro, quindi l'elemento desiderato.
Nella barra dei comandi, seleziona + Nuovo collegamento a data lake.
Seleziona Sottoscrizione, Gruppo di risorse e Account di archiviazione. Assicurati che l'account di archiviazione soddisfi i requisiti specificati nella sezione Prerequisiti. Selezionare Avanti.

Nota

Come parte del collegamento dell'ambiente a un data lake, concedi l'accesso al servizio Azure Synapse Link all'account di archiviazione. Assicurati di aver seguito i prerequisiti per creare e configurare l'account di Azure Data Lake Storage e concederti un ruolo di proprietario sull'account di archiviazione. Inoltre, concedi al servizio Power Platform Dataflows l'accesso all'account di archiviazione. Ulteriori informazioni: Preparazione di dati self-service con flussi di dati.
Aggiungi le tabelle che desideri esportare, quindi seleziona Salva. Solo le tabelle con il rilevamento delle modifiche abilitato possono essere esportate. Ulteriori informazioni: Abilitare il rilevamento delle modifiche.

Puoi seguire i passaggi in questo articolo per creare un collegamento da un ambiente a più data lake di Azure nella sottoscrizione di Azure. Allo stesso modo, potresti creare un collegamento da più ambienti allo stesso Azure Data Lake, tutti all'interno dello stesso tenant.

Nota

Il servizio Azure Synapse Link for Dataverse è perfettamente integrato nella funzionalità predefinita Power Platform. Soddisfa gli standard di sicurezza e governance stabiliti per l'archiviazione e la governance dei dati Power Platform. Altre informazioni: Archiviazione e governance dei dati

I dati esportati dal servizio Azure Synapse Link vengono crittografati al transito utilizzando Transport Layer Security (TLS) 1.2 o versioni successive e crittografati a riposo in Azure Data Lake Storage Gen2. Anche i dati temporanei nell'archiviazione BLOB sono crittografati quando inattivi. La crittografia in Azure Data Lake Storage Gen2 consente di proteggere i dati, implementare i criteri di sicurezza aziendali e soddisfare i requisiti di conformità normativa. Ulteriori informazioni: Crittografia dei dati di Azure quando inattivi

Gestire l'esportazione di dati di tabella nel data lake

Dopo aver impostato Azure Synapse Link, puoi gestire le tabelle esportate in uno dei due seguenti modi:

Nell'area Azure Synapse Link del portale di creatori di Power Apps, seleziona Gestisci tabelle nella barra dei comandi per aggiungere o rimuovere una o più tabelle collegate.
Nell'area Tabelle del portale per autori di Power Apps, seleziona ... accanto a una tabella, quindi seleziona il data lake collegato in cui desideri esportare i dati di tabella.

Monitorare Azure Synapse Link

Dopo aver configurato Azure Synapse Link, puoi monitorare Azure Synapse Link nella scheda Tabelle.

Monitoraggio di Azure Synapse Link

Ci sarà un elenco di tabella che fanno parte del servizio Azure Synapse Link selezionato.
Ci sono diverse fasi in cui passerà lo stato di sincronizzazione. Non iniziato indica che la tabella è in attesa di essere sincronizzata. Una volta che la sincronizzazione iniziale della tabella è stata Completata, ci sarà una fase di post-elaborazione in cui non si verificheranno aggiornamenti incrementali. A seconda delle dimensioni dei dati la fase potrebbe durare alcune ore. Quando gli aggiornamenti incrementali riprendono, la data dell'ultima sincronizzazione verrà aggiornata regolarmente.
La colonna Conteggio mostra il numero di righe scritte. Quando Aggiungi solo è impostato su No, questo è il numero totale di record. Quando Aggiungi solo è impostato su Sì, questo è il numero totale di modifiche.
Le colonne Solo aggiunta e Strategia di partizione mostrano l'utilizzo di diverse configurazioni avanzate.

Scollegamento di Azure Synapse Link

Seleziona il servizio Azure Synapse Link da scollegare.
Seleziona Scollega data lake nella barra dei comandi.
Per eliminare entrambi i file system del data lake, seleziona Elimina file system data lake.
Seleziona Sì e attendi alcuni minuti per scollegare ed eliminare tutto.

Ricollegamento di un servizio Azure Synapse Link

Se hai eliminato il file system durante lo scollegamento, segui i passaggi precedenti per ricollegare lo stesso data lake. Se non hai eliminato il file system durante lo scollegamento, devi cancellare i dati per ricollegare:

Accedi ad Azure Data Lake.
Elimina il contenitore Dataverse.
Accedi a Power Apps e ricollega il data lake.

Visualizzare i dati in Azure Data Lake Storage Gen2

Seleziona il servizio Azure Synapse Link, quindi seleziona Vai ad Azure Data Lake nel pannello superiore.
Espandi File System, quindi seleziona dataverse-environmentName-organizationUniqueName.

Il file model.json, insieme al nome e alla versione, fornisce un elenco di tabelle che sono state esportate nel data lake. Il file model.json include anche lo stato di sincronizzazione iniziale e il tempo di completamento della sincronizzazione.

Una cartella che include file di snapshot delimitati da virgole (formato CSV) viene visualizzata per ogni tabella esportata nel data lake. Dati di tabella nel data lake.

Collegamento di un'area di lavoro Synapse a un profilo Azure Synapse Link esistente solo con data lake

Nella barra degli indirizzi del tuo browser Web, aggiungi ?athena.updateLake=true all'indirizzo Web che termina con exporttodatalake.
Seleziona un profilo esistente dall'area, quindi selezionare l'opzione Azure Synapse Link estesa.
Seleziona Collega all'area di lavoro Azure Synapse Analytics e attendi alcuni minuti per scollegare ed eliminare tutto.

Aggiornamenti continui degli snapshot

I dati Microsoft Dataverse possono cambiare continuamente mediante transazioni di creazione, aggiornamento ed eliminazione. Gli snapshot forniscono una copia di sola lettura dei dati che viene aggiornata a intervalli regolari, in questo caso ogni ora. Ciò garantisce che in qualsiasi momento un consumatore di analisi dei dati possa utilizzare in modo affidabile i dati nel data lake.

Aggiornamenti continui degli snapshot.

Quando le tabelle vengono aggiunte come parte dell'esportazione iniziale, i dati di tabella vengono scritti nei file table.csv che si trovano nelle cartelle corrispondenti nel data lake. Questo è l'intervallo T1, in cui viene creato un file di snapshot di sola lettura denominato tabella-T1.csv (ad esempio, Account-T1.csv o Contatti-T1.csv). Inoltre, il file model.json viene aggiornato per puntare a questi file di snapshot. Aprendo il file model.json, puoi visualizzare i dettagli dello snapshot.

Ecco un esempio di file partizionato Account.csv e cartella snapshot nel data lake.

Snapshot della tabella Account.

Le modifiche in Dataverse vengono continuamente inviate ai file CSV corrispondenti utilizzando il motore di afflusso. Questo è l'intervallo T2, in cui viene acquisito un altro snapshot. tabella-T2.csv, ad esempio, Account-T2.csv o Contatti-T2.csv (supponendo che siano presenti modifiche per la tabella), e model.json vengono aggiornati ai nuovi file di snapshot. Ogni nuova persona che visualizza i dati snapshot da T2 in poi viene indirizzata ai file di snapshot più recenti. In questo modo, il visualizzatore di snapshot originale potrebbe continuare a funzionare sui file T1 di snapshot meno recenti mentre i visualizzatori più recenti possono leggere gli ultimi aggiornamenti. Ciò è utile in scenari con processi a valle più lunghi.

Nota

Viene creato un nuovo file snapshot solo se è presente un aggiornamento dei dati. Verranno conservati solo gli ultimi cinque file snapshot. I dati stagnanti verranno rimossi automaticamente dal tuo account Azure Data Lake Storage Gen 2.

Ecco un esempio del file model.json, che punta sempre all'ultimo file di snapshot dell'account con timestamp.

Esempio di file model.json di snapshot.

Qual è il prossimo passaggio?

Dopo aver utilizzato correttamente il servizio Azure Synapse Link for Dataverse, scopri come analizzare e utilizzare i dati con l'Hub di individuazione. Per accedere a Hub di individuazione, vai a Power Apps > Azure Synapse Link. Seleziona il tuo servizio collegato e quindi seleziona la scheda Scopri Hub. Qui puoi trovare strumenti consigliati e documentazione curata per aiutarti a ottenere il massimo valore dai tuoi dati. Scopri Hub.