Microsoft Purview Data Catalog guida per l'utente di derivazione

Questo articolo offre una panoramica delle funzionalità di derivazione dei dati in Microsoft Purview Data Catalog.

Background

Una delle funzionalità della piattaforma di Microsoft Purview è la possibilità di mostrare la derivazione tra i set di dati creati dai processi di dati. Sistemi come Data Factory, Condivisione dati e Power BI acquisiscono la derivazione dei dati man mano che si spostano. La creazione di report personalizzati sulla derivazione è supportata anche tramite hook Atlas e l'API REST.

Collezione di derivazione

I metadati raccolti in Microsoft Purview dai sistemi dati aziendali vengono uniti per mostrare una derivazione dei dati end-to-end. I sistemi di dati che raccolgono la derivazione in Microsoft Purview sono classificati in tre tipi:

Ogni sistema supporta un diverso livello di ambito di derivazione. Controllare le sezioni seguenti, o l'articolo sulla derivazione individuale del sistema, per confermare l'ambito della derivazione attualmente disponibile.

Limitazioni note

  • Le viste di database usate come origine dell'attività del processo (Azure Data Factory, Pipeline di Synapse, database Azure SQL, Azure Condivisione dati) vengono attualmente acquisite come oggetti tabella di database in Microsoft Purview. Se viene analizzato anche il database, gli asset di visualizzazione vengono individuati separatamente in Microsoft Purview. In questo scenario, due asset con lo stesso nome acquisiti in Microsoft Purview, uno come tabella con derivazione dei dati e un altro come visualizzazione.
  • Se una stored procedure contiene istruzioni drop o create, non vengono attualmente acquisite in derivazione.

Sistemi di elaborazione dati

L'integrazione dei dati e gli strumenti ETL possono eseguire il push della derivazione in Microsoft Purview in fase di esecuzione. Strumenti come Data Factory, Condivisione dati, Synapse, Azure Databricks e così via appartengono a questa categoria di sistemi di elaborazione dati. I sistemi di elaborazione dati fanno riferimento ai set di dati come origine da database e soluzioni di archiviazione diversi per creare set di dati di destinazione. L'elenco dei sistemi di elaborazione dati attualmente integrati con Microsoft Purview per la derivazione è elencato nella tabella seguente.

Sistema di elaborazione dati Ambito supportato
Flusso d' aria Derivazione del flusso d'aria
Azure Condivisione dati Condividere lo snapshot
Azure Data Factory attività Copy
Attività del flusso di dati
Eseguire l'attività del pacchetto SSIS
database Azure SQL (anteprima) Estrazione della derivazione per le esecuzioni di stored procedure
Azure Synapse Analytics attività Copy
Attività del flusso di dati

Sistemi di archiviazione dati

Le soluzioni di archiviazione dei database & , ad esempio Oracle, Teradata e SAP, dispongono di motori di query per trasformare i dati usando il linguaggio di scripting. Le informazioni sulla derivazione dei dati da viste/stored procedure/ecc vengono raccolte in Microsoft Purview e unite con derivazione da altri sistemi. La derivazione è supportata per le origini dati seguenti tramite l'analisi dei dati di Microsoft Purview. Altre informazioni sugli scenari di derivazione supportati sono disponibili nel rispettivo articolo.

Categoria Origine dati
Azure Azure Databricks
Database Cassandra
Db2
Google BigQuery
Hive Metastore Database
Mysql
Oracle
Postgresql
Fiocco
Teradata
Servizi e app Erwin
Looker
SAP ECC
SAP S/4HANA

Sistemi di analisi dei dati e report

I sistemi di analisi dei dati e creazione di report, ad esempio Azure Machine Learning e Power BI, consentono di passare a Microsoft Purview. Questi sistemi useranno i set di dati dei sistemi di archiviazione ed elaborano attraverso il loro metamodelli per creare dashboard bi, esperimenti di machine learning e così via.

Sistema di report di analisi dei & dati Ambito supportato
Power BI Set di dati, flussi di dati, dashboard report &

Introduzione alla derivazione

La derivazione in Microsoft Purview include set di dati e processi. I set di dati vengono anche definiti nodi, mentre i processi possono essere definiti anche archi:

  • Set di dati (nodo):set di dati (strutturato o non strutturato) fornito come input per un processo. Ad esempio, una tabella SQL, un BLOB di Azure e file (ad esempio .csv e .xml), sono tutti considerati set di dati. Nella sezione derivazione di Microsoft Purview i set di dati sono rappresentati da caselle rettangolari.

  • Processo (Edge):un'attività o una trasformazione eseguita su un set di dati è denominata processo. Ad esempio, ADF attività Copy, Condivisione dati snapshot e così via. Nella sezione derivazione di Microsoft Purview i processi sono rappresentati da caselle con bordi arrotondati.

Per accedere alle informazioni sulla derivazione di un asset in Microsoft Purview, seguire questa procedura:

  1. Aprire il portale di governance di Microsoft Purview:

  2. Nella home page del portale di governance di Microsoft Purview cercare un nome del set di dati o il nome del processo, ad esempio Copia di Azure Data Factory o attività di Flusso di dati. Quindi premere INVIO.

  3. Dai risultati della ricerca selezionare l'asset e selezionare la relativa scheda Derivazione .

    Screenshot che mostra come selezionare la scheda Derivazione.

Derivazione a livello di asset

Microsoft Purview supporta la derivazione a livello di asset per i set di dati e i processi. Per visualizzare la derivazione a livello di asset, passare alla scheda Derivazione dell'asset corrente nel catalogo. Selezionare il nodo dell'asset del set di dati corrente. Per impostazione predefinita, l'elenco delle colonne appartenenti ai dati viene visualizzato nel riquadro sinistro.

Screenshot che mostra come selezionare Visualizza colonne nella pagina di derivazione.

Derivazione manuale

La derivazione dei dati in Microsoft Purview è automatizzata per molti asset in ambienti locali, multicloud e SaaS. Anche se continuiamo ad aggiungere altre origini automatizzate, la derivazione manuale consente di documentare i metadati di derivazione per le origini in cui l'automazione non è ancora supportata, senza usare codice.

Per aggiungere derivazione manuale per uno qualsiasi degli asset, seguire questa procedura:

  1. Cercare l'asset nel catalogo dati e selezionarlo per visualizzare i dettagli.

  2. Selezionare Modifica, passare alla scheda Derivazione e selezionare Aggiungi derivazione manuale nel pannello inferiore.

    Screenshot della modifica di un asset e dell'aggiunta della derivazione manuale.

  3. Per configurare la derivazione degli asset:

    1. Selezionare l'elenco a discesa asset per trovare l'asset dall'elenco suggerito o Visualizza altro per cercare il catalogo completo. Selezionare l'asset da collegare.
    2. Selezionare l'icona di scambio per configurare la direzione della relazione come Produce (per derivazione downstream) o Consumes (per derivazione upstream).
    3. Se si vuole eliminare una derivazione, selezionare l'icona del cestino.

    Screenshot di una pagina di derivazione di asset di dati, con l'elenco a discesa dell'asset evidenziato.

  4. Quando si aggiunge la derivazione tra due asset di dati, è anche possibile configurare la derivazione a livello di colonna. Selezionare l'icona di espansione all'inizio della riga, selezionare le colonne upstream e downstream negli elenchi a discesa corrispondenti per configurare il mapping delle colonne. Selezionare l'icona più per aggiungere altre derivazione di colonna; selezionare l'icona del cestino per eliminare quelli esistenti.

    Screenshot della configurazione della derivazione a livello di colonna.

  5. È possibile aggiungere altre derivazione a livello di asset selezionando di nuovo il pulsante Aggiungi derivazione manuale . Al termine, selezionare il pulsante Salva per salvare la derivazione e uscire dalla modalità di modifica.

Limitazioni note della derivazione manuale

  • L'esperienza di selezione degli asset corrente consente di selezionare un solo asset alla volta.
  • La derivazione manuale a livello di colonna è attualmente supportata per la derivazione tra due asset di dati, mentre non è supportata quando l'asset di processo è coinvolto tra loro.
  • Accesso alla cura dei dati necessario sia per gli asset di origine che per gli asset di destinazione.
  • Questi tipi di asset attualmente non consentono la derivazione manuale perché supportano la derivazione automatizzata:
    • Azure Data Factory
    • Pipeline di Synapse
    • Set di dati di Power BI
    • Stored procedure Teradata
    • Azure SQL stored procedure

Derivazione della colonna del set di dati

Per visualizzare la derivazione a livello di colonna di un set di dati, passare alla scheda Derivazione dell'asset corrente nel catalogo e seguire questa procedura:

  1. Dopo aver fatto clic sulla scheda derivazione, nel riquadro sinistro selezionare la casella di controllo accanto a ogni colonna da visualizzare nella derivazione dei dati.

    Screenshot che mostra come selezionare le colonne da visualizzare nella pagina di derivazione.

  2. Passare il puntatore del mouse su una colonna selezionata nel riquadro sinistro o nel set di dati dell'area di disegno di derivazione per visualizzare il mapping della colonna. Tutte le istanze della colonna sono evidenziate.

    Screenshot che mostra come passare il puntatore del mouse su un nome di colonna per evidenziare il flusso di colonna in un percorso di derivazione dei dati.

  3. Se il numero di colonne è maggiore di quello che può essere visualizzato nel riquadro sinistro, usare l'opzione di filtro per selezionare una colonna specifica in base al nome. In alternativa, è possibile usare il mouse per scorrere l'elenco.

    Screenshot che mostra come filtrare le colonne in base al nome della colonna nella pagina di derivazione.

  4. Se l'area di disegno di derivazione contiene più nodi e bordi, usare il filtro per selezionare l'asset di dati o elaborare i nodi in base al nome. In alternativa, è possibile usare il mouse per eseguire la panoramica della finestra di derivazione.

    Screenshot che mostra i nodi dell'asset di dati per nome nella pagina di derivazione.

  5. Usare l'interruttore nel riquadro sinistro per evidenziare l'elenco di set di dati nell'area di disegno di derivazione. Se si disattiva l'interruttore, viene visualizzato qualsiasi asset che contiene almeno una delle colonne selezionate. Se si attiva l'interruttore, vengono visualizzati solo i set di dati che contengono tutte le colonne.

    Screenshot che mostra come usare l'interruttore per filtrare l'elenco di nodi nella pagina di derivazione.

Derivazione della colonna del processo

È anche possibile visualizzare i processi dati, ad esempio le attività di copia, nel catalogo dati. Ad esempio, in questo flusso di derivazione selezionare l'attività di copia:

Screenshot di un flusso di derivazione dei dati con uno dei nodi dell'attività di copia evidenziati.

L'attività di copia verrà espansa e quindi sarà possibile selezionare il pulsante Passa all'asset , che fornirà ulteriori dettagli sul processo stesso.

Screenshot del nodo attività di copia espanso e del nuovo pulsante passa all'asset selezionato.

Il processo di dati può richiedere uno o più set di dati di input per produrre uno o più output. In Microsoft Purview la derivazione a livello di colonna è disponibile per i nodi di processo.

  1. Passare da un set di dati di input a un set di dati di output da un elenco a discesa nel pannello colonne.

  2. Selezionare colonne da una o più tabelle per visualizzare la derivazione che passa dal set di dati di input al set di dati di output corrispondente.

    Screenshot che mostra la derivazione delle colonne di un nodo di processo.

Esplorare gli asset in derivazione

  1. Selezionare Passa all'asset in qualsiasi asset per visualizzare i metadati corrispondenti dalla visualizzazione derivazione. Questa operazione è un modo efficace per passare a un altro asset nel catalogo dalla visualizzazione derivazione.

    Screenshot di come selezionare Passa all'asset in un asset di dati di derivazione.

  2. L'area di disegno di derivazione potrebbe diventare complessa per i set di dati più diffusi. Per evitare confusione, la visualizzazione predefinita mostrerà solo cinque livelli di derivazione per l'asset nello stato attivo. Il resto della derivazione può essere espanso selezionando le bolle nell'area di disegno di derivazione. I consumer di dati possono anche nascondere gli asset nell'area di disegno che non sono di interesse. Per ridurre ulteriormente il disordine, disattivare l'interruttore More Lineage nella parte superiore dell'area di disegno di derivazione. Questa azione nasconderà tutte le bolle nell'area di disegno di derivazione.

    Screenshot che mostra come attivare o disattivare Più derivazione.

  3. Usare i pulsanti intelligenti nell'area di disegno di derivazione per ottenere una visualizzazione ottimale della derivazione:

    1. Schermo intero
    2. Zoom per adattarlo
    3. Zoom avanti/indietro
    4. Allineamento automatico
    5. Anteprima dello zoom
    6. E altre opzioni:
      1. Centrare l'asset corrente
      2. Reimpostare la visualizzazione predefinita

    Screenshot che mostra come selezionare i pulsanti intelligenti di derivazione.

Passaggi successivi