Připojení k Azure Data Factory a Azure Purview
Tento dokument vysvětluje kroky potřebné k připojení účtu Azure Data Factory s účtem Azure Purview za účelem sledování datových zdrojů. Dokument se také dostane do podrobností o rozsahu pokrytí a podporovaných vzorech poslané struktury.
Zobrazení existujících Data Factory připojení
K jedné službě Azure Purview se může připojit více datových továren Azure za účelem nabízení informací o ka dívce. Aktuální limit umožňuje připojit najednou 10 Data Factory účtů z Centra pro správu Purview. Pokud chcete zobrazit seznam Data Factory účtů připojených k účtu Purview, proveďte následující:
V levém navigačním podokně vyberte Správa.
V části Připojení ke lineáži vyberte Data Factory.
Zobrazí Data Factory připojení.
Všimněte si různých hodnot pro stav připojení:
- Připojeno: Datová továrna je připojená k účtu Purview.
- Odpojeno: Datová továrna má přístup k katalogu, ale je připojená k jinému katalogu. V důsledku toho se do katalogu automaticky nebude hlásit datový řádek.
- CannotAccess: Aktuální uživatel nemá přístup k datové továrně, takže stav připojení není známý.
Poznámka
Pokud chcete Data Factory připojení, musíte mít přiřazenou následující roli. Dědičnost rolí ze skupiny pro správu se nepodporuje. Role správců kolekce v kořenové kolekci.
Vytvoření nového Data Factory připojení
Poznámka
Pokud chcete přidat nebo Data Factory připojení, musíte mít přiřazenou následující roli. Dědičnost rolí ze skupiny pro správu se nepodporuje. Role správců kolekce v kořenové kolekci.
Vyžaduje také, aby uživatelé byla vlastníkem nebo přispěvatelem datové továrny.
Pomocí následujícího postupu připojte existující datovou továrnu ke svému účtu Purview. Z ADF se Data Factory připojit také k účtu Purview.
V levém navigačním podokně vyberte Správa.
V části Připojení ke lineáži vyberte Data Factory.
Na stránce Data Factory připojení vyberte Nový.
V seznamu Data Factory vyberte svůj účet úložiště a vyberte OK. Seznam můžete také omezit filtrováním podle názvu předplatného.
Některé Data Factory instance můžou být zakázané, pokud datová továrna už je připojená k aktuálnímu účtu Purview nebo datová továrna nemá spravovanou identitu.
Pokud je některý z vybraných datových továren již připojený k jinému účtu Purview, zobrazí se upozornění. Když vyberete OK, Data Factory připojení k druhému účtu Purview se odpojí. Nevyžaduje se žádná další potvrzení.
Poznámka
Teď podporujeme přidávání více než 10 datových továren najednou. Pokud chcete přidat více než 10 datových továren najednou, zadejte lístek podpory.
Jak funguje ověřování
Spravovaná identita datové továrny se používá k ověřování operací nabízených oznámení v data factory do Purview. Při připojování datové továrny k Purview v uživatelském rozhraní se přiřazení role přidá automaticky.
V kořenové kolekci Purview udělte roli kurátora dat spravované identity datové továrny. Přečtěte si další informace o řízení přístupu v Azure Purview a přidání rolí a omezení přístupu prostřednictvím kolekcí.
Odebrání připojení datové továrny
Pokud chcete odebrat připojení datové továrny, proveďte následující kroky:
Na stránce Data Factory připojení vyberte tlačítko Odebrat vedle jednoho nebo více připojení datové továrny.
Výběrem možnosti Potvrdit v místní nabídce odstraňte vybraná připojení datové továrny.
Podporované Azure Data Factory aktivity
Azure Purview zachycuje runtime lineage z následujících Azure Data Factory aktivit:
Důležité
Pokud zdroj nebo cíl používá nepodporovaný systém úložiště dat, Azure Purview zahodí původce.
Integrace mezi Data Factory a Purview podporuje pouze podmnožinu datových systémů, Data Factory podporuje, jak je popsáno v následujících částech.
aktivita Copy podpory
| Úložiště dat | Podporováno |
|---|---|
| Azure Blob Storage | Yes |
| Azure Cognitive Search | Yes |
| Azure Cosmos DB (SQL API)* | Yes |
| Rozhraní API služby Azure Cosmos DB pro MongoDB* | Yes |
| Azure Data Explorer * | Yes |
| Azure Data Lake Storage Gen1 | Ano |
| Azure Data Lake Storage Gen2 | Ano |
| Azure Database for Maria DB * | Yes |
| Azure Database for MySQL * | Yes |
| Azure Database for PostgreSQL * | Yes |
| Azure Files | Yes |
| Azure SQL Database * | Yes |
| Azure SQL Managed Instance* | Yes |
| Azure Synapse Analytics * | Yes |
| Vyhrazený fond SQL Azure (dříve SQL DW)* | Ano |
| Azure Table Storage | Yes |
| Amazon S3 | Yes |
| Podregistr * | Yes |
| Oracle * | Yes |
| Tabulka SAP (při připojování k SAP ECC nebo SAP S/4HANA) | Yes |
| SQL Server * | Yes |
| Teradata * | Yes |
* Azure Purview v současné době nepodporuje dotazování ani uloženou proceduru pro účely řádu nebo prohledávání. Řádek je omezen pouze na tabulkové zdroje a zdroje zobrazení.
Pokud používáte vlastní hostované Integration Runtime, poznamenejte si minimální verzi s podporou pro:
- Jakýkoli případ použití: verze 5.9.7885.3 nebo novější
- Kopírování dat z Oraclu: verze 5.10 nebo novější
- Kopírování dat do Azure Synapse Analytics pomocí příkazu COPY nebo PolyBase: verze 5.10 nebo novější
Omezení týkající se řádku aktivity kopírování
Pokud v současné době používáte následující funkce aktivity kopírování, není tento řádek ještě podporovaný:
- Kopírování dat do Azure Data Lake Storage Gen1 pomocí binárního formátu
- Nastavení komprese pro binární soubory, textové soubory s oddělovači, Excel, JSON a SOUBORY XML.
- Možnosti zdrojového oddílu Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server a TABULKY SAP.
- Kopírování dat do souborové jímky s nastavením maximálního počet řádků na soubor
Kromě řádku se schéma datového assetu (zobrazené na kartě Asset -> Schema) uvádí pro následující konektory:
- Soubory CSV a Parquet v Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 a Amazon S3
- Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata
Podpora Flow dat
| Úložiště dat | Podporováno |
|---|---|
| Azure Blob Storage | Yes |
| Azure Cosmos DB (SQL API)* | Yes |
| Azure Data Lake Storage Gen1 | Ano |
| Azure Data Lake Storage Gen2 | Ano |
| Azure Database for MySQL * | Yes |
| Azure Database for PostgreSQL * | Yes |
| Azure SQL Database * | Yes |
| Azure SQL Managed Instance* | Yes |
| Azure Synapse Analytics * | Yes |
| Vyhrazený fond SQL Azure (dříve SQL DW)* | Yes |
* Azure Purview v současné době nepodporuje dotazování ani uloženou proceduru pro účely řádu nebo prohledávání. Řádek je omezen pouze na tabulkové zdroje a zdroje zobrazení.
Omezení toku dat
V současné době se se sadami prostředků Purviewne integrateuje.
Podpora spuštění balíčku SSIS
Přečtěte si podporované úložiště dat.
Přístup k zabezpečenému účtu Azure Purview
Pokud je váš účet Purview chráněný bránou firewall, přečtěte si, jak Data Factory přístup k zabezpečenému účtu Purview prostřednictvím privátních koncových bodů Purview.
Přenést Data Factory do Purview
Pokud chcete zobrazit podrobný návod, postupujte podle kurzu: Nasouzování Data Factory do Azure Purview.
Podporované vzory poschůdek
Existuje několik vzorů, které Azure Purview podporuje. Vygenerovaná data o původu jsou založená na typu zdroje a jímky, které se používají v Data Factory aktivitách. Přestože Data Factory podporuje více než 80 zdrojů a jímek, Azure Purview podporuje pouze podmnožinu, jak je uvedeno v části Podporované aktivity Azure Data Factory.
Informace o konfiguraci Data Factory odesílání informací o kachlách najdete v tématu Začínáme s řádem.
Mezi další způsoby hledání informací v zobrazení lineage patří:
- Na kartě Lineage (Řádek) najeďte myší na tvary a zobrazte si náhled dalších informací o assetu v popisu.
- Výběrem uzlu nebo hrany zobrazíte typ assetu, který patří, nebo přepnete prostředky.
- Sloupce datové sady se zobrazují na levé straně karty Lineage (Řádek). Další informace o řádku na úrovni sloupce najdete v článku o posměchu sloupců datové sady.
Data lineage for 1:1 operations
Nejběžnějším vzorem pro zachytávání datových pomůcek je přesun dat z jedné vstupní datové sady do jedné výstupní datové sady s procesem mezi nimi.
Příklad tohoto modelu by byl následující:
- 1 zdroj/vstup: Zákazník (SQL tabulka)
- 1 jímka/výstup: Customer1.csv (Azure Blob)
- 1 proces: CopyCustomerInfo1 #Customer1.csv (Data Factory aktivita Copy)
Přesun dat s podporou 1:1 a zástupných znaků
Dalším běžným scénářem pro zachycení řádku je použití zástupné znaky ke kopírování souborů z jedné vstupní datové sady do jedné výstupní datové sady. Zástupný znak umožňuje, aby aktivita kopírování odpovídala více souborům pro kopírování pomocí společné části názvu souboru. Azure Purview zachycuje řádek na úrovni souborů pro každý jednotlivý soubor zkopírovaný odpovídající aktivitou kopírování.
Příklad tohoto modelu by byl následující:
- Zdroj/vstup: CustomerCall *.csv (ADLS Gen2 cesta)
- Jímka/výstup: CustomerCall *.csv (soubor objektů blob Azure)
- 1 proces: CopyGen2ToBlob #CustomerCall.csv (Data Factory aktivita Copy)
Přesun dat s řádem n:1
Aktivity datových Flow můžete použít k provádění operací s daty, jako je sloučení, spojení atd. K vytvoření cílové datové sady je možné použít více než jednu zdrojovou datovou sadu. V tomto příkladu Azure Purview zachycuje řádek na úrovni souborů pro jednotlivé vstupní soubory do tabulky SQL, která je součástí aktivity datových Flow dat.
Příklad tohoto modelu by byl následující:
- 2 zdroje/vstupy: Customer.csv, Sales.parquet (ADLS Gen2 path)
- 1 jímka/výstup: Firemní data (Tabulka SQL Azure)
-
- proces: DataFlowBlobsToSQL (Data Factory aktivita Flow data)
Lineage for resource sets
Sada prostředků je logický objekt v katalogu, který představuje mnoho souborů oddílů v podkladovém úložišti. Další informace najdete v tématu Principy sad prostředků. Když Azure Purview zachytí Azure Data Factory, použije pravidla k normalizaci jednotlivých souborů oddílů a vytvoření jednoho logického objektu.
V následujícím příkladu se sada prostředků Azure Data Lake Gen2 vytvoří z objektu blob Azure:
- 1 zdroj/vstup: Zaměstnanec _management.csv (Azure Blob)
- 1 jímka/výstup: Zaměstnanec _management.csv (Azure Data Lake Gen 2)
- 1 proces: CopyBlobToAdlsGen2 _ RS (Data Factory aktivita Copy)
Další kroky
Kurz: Na push Data Factory do Azure Purview