Data afkomst in azure controle sfeer liggen Data Catalog-clientData lineage in Azure Purview Data Catalog client

Dit artikel bevat een overzicht van de gegevens afkomst in azure controle sfeer liggen Data Catalog.This article provides an overview of data lineage in Azure Purview Data Catalog. Ook wordt beschreven hoe gegevens systemen met de catalogus kunnen worden geïntegreerd om afkomst gegevens vast te leggen.It also details how data systems can integrate with the catalog to capture lineage of data. Controle sfeer liggen kan afkomst vastleggen voor gegevens in verschillende delen van de gegevens van uw organisatie en op verschillende manieren van de voor bereiding, waaronder:Purview can capture lineage for data in different parts of your organization's data estate, and at different levels of preparation including:

  • Volledig onbewerkte gegevens die vanaf verschillende platforms worden klaargezetCompletely raw data staged from various platforms
  • Getransformeerde en voor bereide gegevensTransformed and prepared data
  • Gegevens die worden gebruikt door visualisatie platforms.Data used by visualization platforms.

Gebruiksscenario'sUse Cases

Data afkomst is breed begrepen als de levens cyclus die de oorsprong van de gegevens omvat en waar deze in de loop van de tijd over de gegevens van het onroerend goed wordt verplaatst.Data lineage is broadly understood as the lifecycle that spans the data’s origin, and where it moves over time across the data estate. Dit wordt gebruikt voor verschillende soorten neerwaartse scenario's, zoals het oplossen van problemen, het traceren van hoofd oorzaken in gegevens pijplijnen en fout opsporing.It is used for different kinds of backwards-looking scenarios such as troubleshooting, tracing root cause in data pipelines and debugging. Afkomst wordt ook gebruikt voor scenario's voor gegevens kwaliteit, naleving en ' What if ' die vaak impact analyse worden genoemd.Lineage is also used for data quality analysis, compliance and “what if” scenarios often referred to as impact analysis. Afkomst wordt visueel weer gegeven om gegevens weer te geven die worden verplaatst van bron naar bestemming, inclusief de manier waarop de gegevens zijn getransformeerd.Lineage is represented visually to show data moving from source to destination including how the data was transformed. Gezien de complexiteit van de meeste bedrijfs gegevens omgevingen, zijn deze weer gaven moeilijk te begrijpen zonder enige samen voeging of maskering van Peripheral data-punten.Given the complexity of most enterprise data environments, these views can be hard to understand without doing some consolidation or masking of peripheral data points.

Afkomst-ervaring in azure controle sfeer liggen Data CatalogLineage experience in Azure Purview Data Catalog

Controle sfeer liggen Data Catalog maakt verbinding met andere systemen voor gegevens verwerking, opslag en analyse om afkomst-gegevens te extra heren.Purview Data Catalog will connect with other data processing, storage, and analytics systems to extract lineage information. De gegevens worden gecombineerd om een algemene, scenario-specifieke afkomst-ervaring in de catalogus te vertegenwoordigen.The information is combined to represent a generic, scenario-specific lineage experience in the Catalog.

end-end afkomst weer gave van gegevens die zijn gekopieerd uit de BLOB Store, de manier waarop ze kunnen Power BI dash board

Uw data-onroerend goed kan systemen bevatten die gegevens extractie, trans formatie (ETL/ELT-systemen), analyse en visualisatie systemen uitvoeren.Your data estate may include systems doing data extraction, transformation (ETL/ELT systems), analytics, and visualization systems. Elk van de systemen legt uitgebreide statische en operationele meta gegevens vast waarmee de status en kwaliteit van de gegevens binnen de systeem grens worden beschreven.Each of the systems captures rich static and operational metadata that describes the state and quality of the data within the systems boundary. Het doel van afkomst in een gegevens catalogus is het extra heren van de beweging, trans formatie en operationele meta gegevens van elk gegevens systeem op het laagste graan mogelijk maakt.The goal of lineage in a data catalog is to extract the movement, transformation, and operational metadata from each data system at the lowest grain possible.

In het volgende voor beeld wordt gebruikgemaakt van gegevens die worden verplaatst over meerdere systemen, waarbij de Data Catalog verbinding zou maken met elk van de systemen voor afkomst.The following example is a typical use case of data moving across multiple systems, where the Data Catalog would connect to each of the systems for lineage.

  • Data Factory kopieert gegevens van on-premises/onbewerkte zone naar een landings zone in de Cloud.Data Factory copies data from on-prem/raw zone to a landing zone in the cloud.
  • Gegevensverwerkings systemen zoals Synapse, Databricks verwerken gegevens van de landings zone naar de gehoste zone met behulp van notitie blokken.Data processing systems like Synapse, Databricks would process and transform data from landing zone to Curated zone using notebooks.
  • Verdere verwerking van gegevens in analyse modellen voor optimale prestaties en aggregatie van query's.Further processing of data into analytical models for optimal query performance and aggregation.
  • Data visualisatie systemen gebruiken de gegevens sets en het proces via het meta model om een BI-dash board, ML experimenten enzovoort te maken.Data visualization systems will consume the datasets and process through their meta model to create a BI Dashboard, ML experiments and so on.

Afkomst granulatieLineage granularity

In deze sectie vindt u informatie over de granulariteit waarvan de afkomst-gegevens worden verzameld door een gegevens catalogus.This section covers the details about the granularity of which the lineage information is gathered by a data catalog. Deze granulatie kan variëren op basis van de gegevens systemen die worden uitgevoerd.This granularity can vary based on the data systems which are being.

Afkomst van entiteits niveau: bron (nen) > proces > doel (en)Entity level lineage: Source(s) > Process > Target(s)

  • Afkomst wordt weer gegeven als een grafiek, meestal bevat deze bron-en doel entiteiten in gegevensopslag systemen die zijn verbonden door een proces dat wordt aangeroepen door een berekenings systeem.Lineage is represented as a graph, typically it contains source and target entities in Data storage systems that are connected by a process invoked by a compute system.
  • Gegevens systemen maken verbinding met de Data Catalog om een uniek object te genereren en te rapporteren dat verwijst naar het fysieke object van het onderliggende gegevens systeem bijvoorbeeld: SQL-opgeslagen procedure, notitie blokken, enzovoort.Data systems connect to the data catalog to generate and report a unique object referencing the physical object of the underlying data system for example: SQL Stored procedure, notebooks, and so on.
  • Hoge betrouw baarheid van afkomst met aanvullende meta gegevens zoals het eigendom wordt vastgelegd om de afkomst in een lees bare indeling weer te geven voor bron & doel entiteiten.High fidelity lineage with additional metadata like ownership is captured to show the lineage in a human readable format for source & target entities. bijvoorbeeld: afkomst op het niveau van een Hive-tabel in plaats van partities of bestands niveau.for example: lineage at a hive table level instead of partitions or file level.

Kolom-of kenmerk niveau afkomstColumn or attribute level lineage

Identificeer kenmerk (en) van een bron entiteit die wordt gebruikt voor het maken of afleiden van kenmerken in de doel entiteit.Identify attribute(s) of a source entity that is used to create or derive attribute(s) in the target entity. De naam van het bron kenmerk kan worden behouden of de naam ervan kan worden gewijzigd in een doel.The name of the source attribute could be retained or renamed in a target. Systemen zoals ADF kunnen een kopie maken van een on-premises omgeving naar de Cloud.Systems like ADF can do a one-one copy from on-premises environment to the cloud. Bijvoorbeeld: Table1/ColumnA -> Table2/ColumnA.For example: Table1/ColumnA -> Table2/ColumnA.

Uitvoerings status van procesProcess execution status

Ter ondersteuning van de analyse van de hoofd oorzaak en de gegevens kwaliteit wordt de uitvoerings status van de taken vastgelegd in systemen voor gegevens verwerking.To support root cause analysis and data quality scenarios, we capture the execution status of the jobs in data processing systems. Deze vereiste heeft niets te maken met het vervangen van de bewakings mogelijkheden van andere systemen voor het verwerken van gegevens. het doel is daarom niet te vervangen.This requirement has nothing to do with replacing the monitoring capabilities of other data processing systems, neither the goal is to replace them.

SamenvattingSummary

Afkomst is een belang rijke functie van de controle sfeer liggen-Data Catalog ter ondersteuning van kwaliteits-, vertrouwens-en controle scenario's.Lineage is a critical feature of the Purview Data Catalog to support quality, trust, and audit scenarios. Het doel van een Data Catalog is het bouwen van een robuust Framework waarbij alle gegevens systemen in uw omgeving afkomst kunnen maken en rapporteren.The goal of a data catalog is to build a robust framework where all the data systems within your environment can naturally connect and report lineage. Zodra de meta gegevens beschikbaar zijn, kan de Data Catalog de meta gegevens die door gegevens systemen zijn verschaft, samen voegen met Power Data Governance-use cases.Once the metadata is available, the data catalog can bring together the metadata provided by data systems to power data governance use cases.

Volgende stappenNext steps