Uživatelská příručka Data Catalog Azure Purview

Tento článek obsahuje přehled funkcí datových zdrojů v Azure Purview Data Catalog.

Pozadí

Jednou z funkcí platformy Azure Purview je možnost zobrazit řádek mezi datovými sadami vytvořenými datovými procesy. Systémy jako Data Factory, Data Share a Power BI zachycovat při přesouvání data. Vlastní generování sestav je podporováno také prostřednictvím atlas hooks a REST API.

Kolekce posádek

Metadata shromážděná v Azure Purview z podnikových datových systémů jsou spojována, aby bylo zobrazení celého datového řádu. Datové systémy, které shromažďují data do Purview, jsou obecně rozdělené do následujících tří typů.

Systém pro zpracování dat

Nástroje pro integraci dat a ETL mohou v době provádění do Azure Purview do služby Push Lineage zatlačit. Do této kategorie datových systémů patří Data Factory, Data Share, Synapse, Azure Databricks atd. Systémy pro zpracování dat odkazují na datové sady jako na zdroj z různých databází a řešení úložiště a vytvářejí cílové datové sady. Seznam systémů pro zpracování dat, které jsou aktuálně integrovány s Purview pro účely zpracování, je uvedený v následující tabulce.

Systém pro zpracování dat Podporovaný obor
Azure Data Factory aktivita Copy
Aktivita toku dat
Aktivita spuštění balíčku SSIS
Azure Synapse Analytics aktivita Copy
Aktivita toku dat
Azure Data Share Snímek sdílené složky

Systémy úložiště dat

Databáze & úložiště, jako jsou SQL Server, Teradata a SAP, mají dotazovací moduly pro transformaci dat pomocí skriptovacího jazyka. Data z uložených procedur se shromažďují do Purview a spojuje se s jinými systémy.

Systém úložiště dat Podporovaný obor
Teradata Uložené procedury

Systémy generování sestav & analýzy dat

Datové systémy jako Azure ML a Power BI sestav do Azure Purview. Tyto systémy budou používat datové sady ze systémů úložiště a zpracovávat prostřednictvím svého meta modelu k vytvoření řídicího panelu BI, ML experimentů atd.

Systém generování sestav & analýzy dat Podporovaný obor
Power BI Datové sady, toky dat, sestavy & řídicí panely

Začínáme s řádem

Součástí řádku v Purview jsou datové sady a procesy. Datové sady se také označují jako uzly, zatímco procesy lze také nazývat hrany:

  • Dataset (Node): Datová sada (strukturovaná nebo nestrukturovaná) poskytovaná jako vstup procesu. Za datové sady SQL například tabulka dat, objekt blob Azure a soubory (například .csv a .xml). V části Purview v oblasti lineage jsou datové sady reprezentované obdélníkovými políčky.

  • Proces (Edge): Aktivita nebo transformace prováděná u datové sady se nazývá proces. Například funkce ADF aktivita Copy, Data Share snímku atd. V části Purview v oblasti lineage jsou procesy reprezentovány rámečky s kruhovými hranami.

Pokud chcete získat přístup k informacím o řádku pro prostředek v Purview, postupujte následovně:

  1. V Azure Portal přejděte na stránku účtů Azure Purview.

  2. V seznamu vyberte svůj účet Azure Purview a pak na stránce Přehled vyberte Spustit účet purview.

  3. Na domovské stránce Azure Purview vyhledejte název datové sady nebo název procesu, například Kopírování ADF nebo Aktivita Flow dat. Pak stiskněte Enter.

  4. Ve výsledcích hledání vyberte asset a vyberte jeho kartu Lineage (Řádek).

    Snímek obrazovky znázorňující, jak vybrat kartu Lineage (Řádek)

Stavové majetek na úrovni aktiv

Azure Purview podporuje pro datové sady a procesy lineage na úrovni prostředků. Pokud chcete zobrazit řádek na úrovni aktiv, přejděte na kartu Lineage (Řádek) aktuálního assetu v katalogu. Vyberte aktuální uzel assetu datové sady. Ve výchozím nastavení se v levém podokně zobrazí seznam sloupců patřících k datům.

Snímek obrazovky, který znázorňuje, jak vybrat zobrazit sloupce na stránce řádku

Posíť sloupců datové sady

Pokud chcete zobrazit řádek datové sady na úrovni sloupce, přejděte na kartu Lineage (Řádek) aktuálního assetu v katalogu a postupujte podle následujících kroků:

  1. Jakmile budete na kartě řádku, v levém podokně zaškrtněte políčko vedle každého sloupce, který chcete zobrazit v datovém řádku.

    Snímek obrazovky, který znázorňuje, jak vybrat sloupce, které se mají zobrazit na stránce pro vytvoření řádku

  2. Pokud chcete zobrazit mapování sloupců, najeďte myší na vybraný sloupec v levém podokně nebo v datové sadě plátna řádku. Všechny instance sloupců jsou zvýrazněné.

    Snímek obrazovky, který znázorňuje, jak najet myší na název sloupce a zvýraznit tok sloupce v cestě ke zdroji dat

  3. Pokud je počet sloupců větší, než je možné zobrazit v levém podokně, použijte možnost filtru k výběru konkrétního sloupce podle názvu. Případně můžete seznam procházet pomocí myši.

    Snímek obrazovky, který znázorňuje, jak filtrovat sloupce podle názvu sloupce na stránce řádku

  4. Pokud plátno řádku obsahuje více uzlů a hran, použijte filtr k výběru datového assetu nebo procesních uzlů podle názvu. Případně můžete použít myš k posouní kolem okna řádku.

    Snímek obrazovky znázorňující uzly datového assetu podle názvu na stránce řádku

  5. Pomocí přepínače v levém podokně zvýrazněte seznam datových sad na plátně řádku. Pokud přepínač vypnete, zobrazí se jakýkoli prostředek, který obsahuje alespoň jeden z vybraných sloupců. Pokud zapnete přepínač, zobrazí se jenom datové sady, které obsahují všechny sloupce.

    Snímek obrazovky, který znázorňuje, jak pomocí přepínače filtrovat seznam uzlů na stránce řádku

Zpracování řádu sloupců

Datový proces může vytvořit jeden nebo více výstupů pomocí jedné nebo více vstupních datových sad. V Purview je pro uzly procesu k dispozici řádek na úrovni sloupce.

  1. Mezi vstupními a výstupními datovými sadami můžete přepínat z rozevíracího seznamu na panelu Sloupců.

  2. Výběrem sloupců z jedné nebo více tabulek zobrazíte tok po řádku ze vstupní datové sady do odpovídající výstupní datové sady.

    Snímek obrazovky znázorňující sloupců v uzlu procesu

Procházení prostředků v řádu

  1. Výběrem možnosti Přepnout na prostředek u libovolného assetu zobrazíte jeho odpovídající metadata ze zobrazení řádku. Je to efektivní způsob, jak v katalogu přejít ze zobrazení katalogu na jiný prostředek.

    Snímek obrazovky s výběrem možnosti Přepnout na asset v datovém assetu řádku

  2. Plátno pro populáry může být pro oblíbené datové sady složité. Aby nedocházelo k nepotřbraných hodnotám, zobrazí se ve výchozím zobrazení pouze pět úrovní počátku pro aktivum v fokusu. Zbytek řádku můžete rozbalit výběrem bublin na plátně řádku. Uživatelé dat také mohou skrýt prostředky na plátně, které nejsou zajímavé. Pokud chcete dále snížit nepotř počty, vypněte přepínač Další počátečník v horní části plátna řádku. Tato akce skryje všechny bubliny na plátně pro řádku.

    Snímek obrazovky, který znázorňuje, jak přepnout další řádek

  3. Pomocí inteligentních tlačítek na plátně pro řádku získáte optimální přehled o tomto řádku. Pro imerzivní prostředí katalogu je k dispozici automatické rozložení, přizpůsobení přiblížení, přiblížení nebo oddálení, zobrazení na celé obrazovce a navigační mapa.

    Snímek obrazovky, který znázorňuje, jak vybrat inteligentní tlačítka pro vytvoření řádku

Další kroky