Derivazione dei dati in Azure competenza Data Catalog clientData lineage in Azure Purview Data Catalog client

Questo articolo fornisce una panoramica della derivazione dei dati in Azure Data Catalog.This article provides an overview of data lineage in Azure Purview Data Catalog. Viene inoltre illustrato il modo in cui i sistemi dati possono integrarsi con il catalogo per acquisire la derivazione dei dati.It also details how data systems can integrate with the catalog to capture lineage of data. Le competenze possono acquisire la derivazione dei dati in diverse parti del patrimonio di dati dell'organizzazione e a diversi livelli di preparazione, tra cui:Purview can capture lineage for data in different parts of your organization's data estate, and at different levels of preparation including:

  • Dati completamente non elaborati gestiti da diverse piattaformeCompletely raw data staged from various platforms
  • Dati trasformati e preparatiTransformed and prepared data
  • Dati usati dalle piattaforme di visualizzazione.Data used by visualization platforms.

Casi d'usoUse Cases

La derivazione dei dati viene ampiamente riconosciuta come ciclo di vita che si estende sull'origine dei dati e dove si sposta nel tempo tra i dati.Data lineage is broadly understood as the lifecycle that spans the data’s origin, and where it moves over time across the data estate. Viene utilizzata per diversi tipi di scenari di aspetto inverso, come la risoluzione dei problemi, la traccia della causa radice nelle pipeline di dati e il debug.It is used for different kinds of backwards-looking scenarios such as troubleshooting, tracing root cause in data pipelines and debugging. La derivazione viene usata anche per l'analisi della qualità dei dati, la conformità e gli scenari di simulazione.Lineage is also used for data quality analysis, compliance and “what if” scenarios often referred to as impact analysis. La derivazione è rappresentata visivamente per mostrare i dati spostati dall'origine alla destinazione, inclusa la modalità di trasformazione dei dati.Lineage is represented visually to show data moving from source to destination including how the data was transformed. Data la complessità della maggior parte degli ambienti dati aziendali, queste visualizzazioni possono essere difficili da comprendere senza eseguire consolidamenti o mascheramento di punti dati periferici.Given the complexity of most enterprise data environments, these views can be hard to understand without doing some consolidation or masking of peripheral data points.

Esperienza di derivazione in Azure competenze Data CatalogLineage experience in Azure Purview Data Catalog

Il Data Catalog di competenza si connetterà ad altri sistemi di elaborazione, archiviazione e analisi dei dati per estrarre le informazioni di derivazione.Purview Data Catalog will connect with other data processing, storage, and analytics systems to extract lineage information. Le informazioni vengono combinate per rappresentare un'esperienza di derivazione generica specifica dello scenario nel catalogo.The information is combined to represent a generic, scenario-specific lineage experience in the Catalog.

derivazione end-end che mostra i dati copiati dall'archivio BLOB fino a Power BI Dashboard

I dati possono includere sistemi per l'estrazione dei dati, la trasformazione (sistemi ETL/ELT), l'analisi e i sistemi di visualizzazione.Your data estate may include systems doing data extraction, transformation (ETL/ELT systems), analytics, and visualization systems. Ogni sistema acquisisce metadati statici e operativi avanzati che descrivono lo stato e la qualità dei dati all'interno del limite di sistemi.Each of the systems captures rich static and operational metadata that describes the state and quality of the data within the systems boundary. L'obiettivo della derivazione in un catalogo dati è estrarre lo spostamento, la trasformazione e i metadati operativi da ogni sistema di dati con il livello di dettaglio più basso possibile.The goal of lineage in a data catalog is to extract the movement, transformation, and operational metadata from each data system at the lowest grain possible.

L'esempio seguente è un caso d'uso tipico di dati spostati tra più sistemi, in cui il Data Catalog si connette a ciascun sistema per la derivazione.The following example is a typical use case of data moving across multiple systems, where the Data Catalog would connect to each of the systems for lineage.

  • Data Factory copia i dati da una zona locale o non elaborata a una zona di destinazione nel cloud.Data Factory copies data from on-prem/raw zone to a landing zone in the cloud.
  • I sistemi di elaborazione dati come sinapsi, databricks elaborano e trasformano i dati dall'area di destinazione alla zona curata usando i notebook.Data processing systems like Synapse, Databricks would process and transform data from landing zone to Curated zone using notebooks.
  • Ulteriore elaborazione dei dati in modelli analitici per ottimizzare le prestazioni delle query e l'aggregazione.Further processing of data into analytical models for optimal query performance and aggregation.
  • I sistemi di visualizzazione dei dati utilizzeranno i set di dati e vengono elaborati tramite il metamodello per creare un dashboard di business intelligence, gli esperimenti ML e così via.Data visualization systems will consume the datasets and process through their meta model to create a BI Dashboard, ML experiments and so on.

Granularità della derivazioneLineage granularity

In questa sezione vengono illustrati i dettagli relativi alla granularità della raccolta delle informazioni di derivazione da parte di un catalogo dati.This section covers the details about the granularity of which the lineage information is gathered by a data catalog. Questa granularità può variare in base ai sistemi dati in corso.This granularity can vary based on the data systems which are being.

Derivazione a livello di entità: origine/i > processo > destinazioniEntity level lineage: Source(s) > Process > Target(s)

  • La derivazione viene rappresentata come grafico, in genere contiene le entità di origine e di destinazione nei sistemi di archiviazione dei dati connessi da un processo richiamato da un sistema di calcolo.Lineage is represented as a graph, typically it contains source and target entities in Data storage systems that are connected by a process invoked by a compute system.
  • I sistemi dati si connettono al Catalogo dati per generare e segnalare un oggetto univoco che fa riferimento all'oggetto fisico del sistema dati sottostante, ad esempio: stored procedure SQL, notebook e così via.Data systems connect to the data catalog to generate and report a unique object referencing the physical object of the underlying data system for example: SQL Stored procedure, notebooks, and so on.
  • La derivazione ad alta fedeltà con metadati aggiuntivi come la proprietà viene acquisita per mostrare la derivazione in un formato leggibile per le entità di destinazione & di origine.High fidelity lineage with additional metadata like ownership is captured to show the lineage in a human readable format for source & target entities. ad esempio: derivazione a livello di tabella hive anziché a livello di file o di partizioni.for example: lineage at a hive table level instead of partitions or file level.

Lignaggio a livello di colonna o di attributoColumn or attribute level lineage

Identificare gli attributi di un'entità di origine utilizzata per creare o derivare gli attributi nell'entità di destinazione.Identify attribute(s) of a source entity that is used to create or derive attribute(s) in the target entity. Il nome dell'attributo di origine può essere mantenuto o rinominato in una destinazione.The name of the source attribute could be retained or renamed in a target. I sistemi come ADF possono eseguire una copia uno-a-uno dall'ambiente locale al cloud.Systems like ADF can do a one-one copy from on-premises environment to the cloud. Ad esempio: Table1/ColumnA -> Table2/ColumnA.For example: Table1/ColumnA -> Table2/ColumnA.

Stato di esecuzione del processoProcess execution status

Per supportare l'analisi delle cause principali e gli scenari di qualità dei dati, si acquisisce lo stato di esecuzione dei processi nei sistemi di elaborazione dati.To support root cause analysis and data quality scenarios, we capture the execution status of the jobs in data processing systems. Questo requisito non ha nulla a che fare con la sostituzione delle funzionalità di monitoraggio di altri sistemi di elaborazione dati, né lo scopo di sostituirli.This requirement has nothing to do with replacing the monitoring capabilities of other data processing systems, neither the goal is to replace them.

RiepilogoSummary

La derivazione è una funzionalità fondamentale del Data Catalog di competenza per supportare scenari di qualità, attendibilità e controllo.Lineage is a critical feature of the Purview Data Catalog to support quality, trust, and audit scenarios. L'obiettivo di un catalogo dati è creare un Framework affidabile in cui tutti i sistemi di dati all'interno dell'ambiente possono connettersi naturalmente e segnalare la derivazione.The goal of a data catalog is to build a robust framework where all the data systems within your environment can naturally connect and report lineage. Una volta resi disponibili i metadati, il Catalogo dati può riunire i metadati forniti dai sistemi dati per potenziare i casi di utilizzo della governance dei dati.Once the metadata is available, the data catalog can bring together the metadata provided by data systems to power data governance use cases.

Passaggi successiviNext steps