Uživatelská příručka Data Catalog Azure Purview
Tento článek obsahuje přehled funkcí datových zdrojů v Azure Purview Data Catalog.
Pozadí
Jednou z funkcí platformy Azure Purview je možnost zobrazit řádek mezi datovými sadami vytvořenými datovými procesy. Systémy jako Data Factory, Data Share a Power BI zachycovat při přesouvání data. Vlastní generování sestav je podporováno také prostřednictvím atlas hooks a REST API.
Kolekce posádek
Metadata shromážděná v Azure Purview z podnikových datových systémů jsou spojována, aby bylo zobrazení celého datového řádu. Datové systémy, které shromažďují data do Purview, jsou obecně rozdělené do následujících tří typů.
Systém pro zpracování dat
Nástroje pro integraci dat a ETL mohou v době provádění do Azure Purview do služby Push Lineage zatlačit. Do této kategorie datových systémů patří Data Factory, Data Share, Synapse, Azure Databricks atd. Systémy pro zpracování dat odkazují na datové sady jako na zdroj z různých databází a řešení úložiště a vytvářejí cílové datové sady. Seznam systémů pro zpracování dat, které jsou aktuálně integrovány s Purview pro účely zpracování, je uvedený v následující tabulce.
| Systém pro zpracování dat | Podporovaný obor |
|---|---|
| Azure Data Factory | aktivita Copy Aktivita toku dat Aktivita spuštění balíčku SSIS |
| Azure Synapse Analytics | aktivita Copy Aktivita toku dat |
| Azure Data Share | Snímek sdílené složky |
Systémy úložiště dat
Databáze & úložiště, jako jsou SQL Server, Teradata a SAP, mají dotazovací moduly pro transformaci dat pomocí skriptovacího jazyka. Data z uložených procedur se shromažďují do Purview a spojuje se s jinými systémy.
| Systém úložiště dat | Podporovaný obor |
|---|---|
| Teradata | Uložené procedury |
Systémy generování sestav & analýzy dat
Datové systémy jako Azure ML a Power BI sestav do Azure Purview. Tyto systémy budou používat datové sady ze systémů úložiště a zpracovávat prostřednictvím svého meta modelu k vytvoření řídicího panelu BI, ML experimentů atd.
| Systém generování sestav & analýzy dat | Podporovaný obor |
|---|---|
| Power BI | Datové sady, toky dat, sestavy & řídicí panely |
Začínáme s řádem
Součástí řádku v Purview jsou datové sady a procesy. Datové sady se také označují jako uzly, zatímco procesy lze také nazývat hrany:
Dataset (Node): Datová sada (strukturovaná nebo nestrukturovaná) poskytovaná jako vstup procesu. Za datové sady SQL například tabulka dat, objekt blob Azure a soubory (například .csv a .xml). V části Purview v oblasti lineage jsou datové sady reprezentované obdélníkovými políčky.
Proces (Edge): Aktivita nebo transformace prováděná u datové sady se nazývá proces. Například funkce ADF aktivita Copy, Data Share snímku atd. V části Purview v oblasti lineage jsou procesy reprezentovány rámečky s kruhovými hranami.
Pokud chcete získat přístup k informacím o řádku pro prostředek v Purview, postupujte následovně:
V Azure Portal přejděte na stránku účtů Azure Purview.
V seznamu vyberte svůj účet Azure Purview a pak na stránce Přehled vyberte Spustit účet purview.
Na domovské stránce Azure Purview vyhledejte název datové sady nebo název procesu, například Kopírování ADF nebo Aktivita Flow dat. Pak stiskněte Enter.
Ve výsledcích hledání vyberte asset a vyberte jeho kartu Lineage (Řádek).
Stavové majetek na úrovni aktiv
Azure Purview podporuje pro datové sady a procesy lineage na úrovni prostředků. Pokud chcete zobrazit řádek na úrovni aktiv, přejděte na kartu Lineage (Řádek) aktuálního assetu v katalogu. Vyberte aktuální uzel assetu datové sady. Ve výchozím nastavení se v levém podokně zobrazí seznam sloupců patřících k datům.
Posíť sloupců datové sady
Pokud chcete zobrazit řádek datové sady na úrovni sloupce, přejděte na kartu Lineage (Řádek) aktuálního assetu v katalogu a postupujte podle následujících kroků:
Jakmile budete na kartě řádku, v levém podokně zaškrtněte políčko vedle každého sloupce, který chcete zobrazit v datovém řádku.
Pokud chcete zobrazit mapování sloupců, najeďte myší na vybraný sloupec v levém podokně nebo v datové sadě plátna řádku. Všechny instance sloupců jsou zvýrazněné.
Pokud je počet sloupců větší, než je možné zobrazit v levém podokně, použijte možnost filtru k výběru konkrétního sloupce podle názvu. Případně můžete seznam procházet pomocí myši.
Pokud plátno řádku obsahuje více uzlů a hran, použijte filtr k výběru datového assetu nebo procesních uzlů podle názvu. Případně můžete použít myš k posouní kolem okna řádku.
Pomocí přepínače v levém podokně zvýrazněte seznam datových sad na plátně řádku. Pokud přepínač vypnete, zobrazí se jakýkoli prostředek, který obsahuje alespoň jeden z vybraných sloupců. Pokud zapnete přepínač, zobrazí se jenom datové sady, které obsahují všechny sloupce.
Zpracování řádu sloupců
Datový proces může vytvořit jeden nebo více výstupů pomocí jedné nebo více vstupních datových sad. V Purview je pro uzly procesu k dispozici řádek na úrovni sloupce.
Mezi vstupními a výstupními datovými sadami můžete přepínat z rozevíracího seznamu na panelu Sloupců.
Výběrem sloupců z jedné nebo více tabulek zobrazíte tok po řádku ze vstupní datové sady do odpovídající výstupní datové sady.
Procházení prostředků v řádu
Výběrem možnosti Přepnout na prostředek u libovolného assetu zobrazíte jeho odpovídající metadata ze zobrazení řádku. Je to efektivní způsob, jak v katalogu přejít ze zobrazení katalogu na jiný prostředek.
Plátno pro populáry může být pro oblíbené datové sady složité. Aby nedocházelo k nepotřbraných hodnotám, zobrazí se ve výchozím zobrazení pouze pět úrovní počátku pro aktivum v fokusu. Zbytek řádku můžete rozbalit výběrem bublin na plátně řádku. Uživatelé dat také mohou skrýt prostředky na plátně, které nejsou zajímavé. Pokud chcete dále snížit nepotř počty, vypněte přepínač Další počátečník v horní části plátna řádku. Tato akce skryje všechny bubliny na plátně pro řádku.
Pomocí inteligentních tlačítek na plátně pro řádku získáte optimální přehled o tomto řádku. Pro imerzivní prostředí katalogu je k dispozici automatické rozložení, přizpůsobení přiblížení, přiblížení nebo oddálení, zobrazení na celé obrazovce a navigační mapa.