Användarhandbok för Azure Purview Data Catalog härledning

Den här artikeln innehåller en översikt över dataurkällan i Azure Purview Data Catalog.

Bakgrund

En av plattformsfunktionerna i Azure Purview är möjligheten att visa härledning mellan datauppsättningar som skapats av dataprocesser. System som Data Factory, Data Share och Power BI avbildar härledning av data när de flyttas. Anpassad härledningsrapportering stöds också via Atlas-hookar och REST API.

Samling av härledning

Metadata som samlas in i Azure Purview från företagsdatasystem sammanfogas för att visa dataurlinjen från ett slut till slut. Datasystem som samlar in härledning i Purview är brett kategoriserade i följande tre typer.

Databearbetningssystem

Dataintegrering och ETL-verktyg kan skicka härledning till Azure Purview vid körning. Verktyg som Data Factory, Data Share, Synapse Azure Databricks och så vidare tillhör den här kategorin av datasystem. Databehandlingssystemen refererar till datauppsättningar som källa från olika databaser och lagringslösningar för att skapa måldatauppsättningar. Listan över databehandlingssystem som för närvarande är integrerade med Purview för härledning visas i tabellen nedan.

Databearbetningssystem Omfång som stöds
Azure Data Factory aktiviteten Kopiera
Dataflödesaktivitet
Köra SSIS-paketaktivitet
Azure Synapse Analytics aktiviteten Kopiera
Dataflödesaktivitet
Azure Data Share Resursögonblicksbild

Datalagringssystem

Lagringslösningar & för databaser som SQL Server, Teradata och SAP har frågemotorer för att transformera data med hjälp av skriptspråk. Data härledning från lagrade procedurer samlas in i Purview och sammanfogas med härledning från andra system.

Datalagringssystem Omfång som stöds
Teradata Lagrade procedurer

Rapporteringssystem för & dataanalys

Datasystem som Azure ML och Power BI härledning i Azure Purview. Dessa system använder datauppsättningarna från lagringssystem och bearbetar genom sin metamodell för att skapa BI-instrumentpanel, ML experiment och så vidare.

Rapporteringssystem för & dataanalys Omfång som stöds
Power BI Datauppsättningar, dataflöden, instrumentpaneler för rapporter

Kom igång med härledning

Härledning i Purview innehåller datauppsättningar och processer. Datauppsättningar kallas även noder, medan processer även kan kallas kanter:

  • Datauppsättning (nod):En datauppsättning (strukturerad eller ostrukturerad) som tillhandahålls som indata för en process. Till exempel betraktas en SQL tabell, Azure-blob och filer (till exempel .csv och .xml) som datauppsättningar. I avsnittet för härledning i Purview representeras datauppsättningar av rektangulära rutor.

  • Process (Edge): Enaktivitet eller transformering som utförs på en datauppsättning kallas för en process. Till exempel ADF-aktiviteten Kopiera, Data Share ögonblicksbild och så vidare. I avsnittet härledning i Purview representeras processer av runda kantrutor.

Följ stegen för att komma åt härledningsinformation för en tillgång i Purview:

  1. I Azure Portal du till sidan Azure Purview accounts (Azure Purview-konton).

  2. Välj ditt Azure Purview-konto i listan och välj sedan Öppna Purview Studiosidan Översikt.

  3. På startsidan för Azure Purview Studio söker du efter ett datauppsättningsnamn eller processnamnet, till exempel ADF Copy eller Data Flow aktivitet. Tryck sedan på Retur.

  4. I sökresultaten väljer du tillgången och fliken Härledning.

    Screenshot showing how to select the Lineage tab.

Härledning på tillgångsnivå

Azure Purview stöder härledning på tillgångsnivå för datauppsättningar och processer. Om du vill se tillgångsnivåns härledning går du till fliken Härledning för den aktuella tillgången i katalogen. Välj den aktuella datauppsättningens tillgångsnod. Som standard visas listan över kolumner som tillhör data i den vänstra rutan.

Screenshot showing how to select View columns in the lineage page

Datamängdskolumnens härledning

Om du vill se en datauppsättnings härledning på kolumnnivå går du till fliken Härledning för den aktuella tillgången i katalogen och följer stegen nedan:

  1. När du är på den här raden, i den vänstra rutan, markerar du kryssrutan bredvid varje kolumn som du vill visa i datakällan.

    Screenshot showing how to select columns to display in the lineage page.

  2. Hovra över en markerad kolumn i den vänstra rutan eller i datauppsättningen för den här arbetsytan för att se kolumnmappningen. Alla kolumninstanser är markerade.

    Screenshot showing how to hover over a column name to highlight the column flow in a data lineage path.

  3. Om antalet kolumner är större än vad som kan visas i den vänstra rutan använder du filteralternativet för att välja en specifik kolumn efter namn. Du kan också använda musen för att bläddra i listan.

    Screenshot showing how to filter columns by column name on the lineage page.

  4. Om arbetsytan för härledning innehåller fler noder och kanter använder du filtret för att välja datatillgång eller processnoder efter namn. Du kan också använda musen för att panorera runt i härledningsfönstret.

    Screenshot showing data asset nodes by name on the lineage page.

  5. Använd växlingsknappen i det vänstra fönstret för att markera listan över datauppsättningar på arbetsytan för härledning. Om du inaktiverar växlingsknappen visas alla tillgångar som innehåller minst en av de valda kolumnerna. Om du aktiverar växlingsknappen visas endast datauppsättningar som innehåller alla kolumner.

    Screenshot showing how to use the toggle to filter the list of nodes on the lineage page.

Bearbeta kolumn härledning

Dataprocessen kan ta en eller flera indatauppsättningar för att skapa en eller flera utdata. I Purview är härledning på kolumnnivå tillgängligt för processnoder.

  1. Växla mellan indata- och utdatauppsättningar från en listrutan på kolumnpanelen.

  2. Välj kolumner från en eller flera tabeller för att se hur härledning flödar från indatauppsättningen till motsvarande utdatauppsättning.

    Screenshot showing columns lineage of a process node.

Bläddra bland tillgångar i härledning

  1. Välj Växla till tillgång på en tillgång för att visa dess motsvarande metadata från vyn för härledning. Det är ett effektivt sätt att bläddra till en annan tillgång i katalogen från vyn för härledning.

    Screenshot how to select Switch to asset in a lineage data asset.

  2. Härledningsarbetsytan kan bli komplex för populära datamängder. För att undvika oreda visar standardvyn bara fem härledningsnivåer för tillgången i fokus. Resten av härledningen kan utökas genom att välja bubblorna på arbetsytan för härledning. Datakonsumenter kan också dölja de tillgångar på arbetsytan som inte är av intresse. Du kan minska oredan ytterligare genom att stänga av växlingsknappen Mer härledning överst på arbetsytan för härledning. Den här åtgärden döljer alla bubblor på den här arbetsytan.

    Screenshot showing how to toggle More lineage.

  3. Använd de smarta knapparna i arbetsytan för att få en optimal vy över härledning. Automatisk layout, Zoom för att passa, Zooma in/ut, Helskärm och navigeringskarta är tillgängliga för en integrerande härledningsupplevelse i katalogen.

    Screenshot showing how to select the lineage smart buttons.

Nästa steg