Modul pro příjem dat nezávislý na datech
Tento článek vysvětluje, jak můžete implementovat scénáře modulu pro příjem dat, které jsou nezávislé na příjmu dat, a to pomocí kombinace úloh kopírování založených na PowerApps, Azure Logic Apps a metadatech ve službě Azure Data Factory.
Scénáře modulu pro příjem dat nezávislé na datech se obvykle zaměřují na to, aby uživatelé, kteří nejsou technickými (nepracovními pracovníky), publikovali datové prostředky do Data Lake pro další zpracování. Pokud chcete tento scénář implementovat, musíte mít možnosti onboardingu, které umožňují:
- Registrace datového assetu
- Zachytávání metadat a zřizování pracovních postupů
- Plánování příjmu dat
Uvidíte, jak tyto funkce komunikují:
Obrázek 1: Interakce s možnostmi registrace dat
Následující diagram ukazuje, jak tento proces implementovat pomocí kombinace služeb Azure:
Obrázek 2: Automatizovaný proces příjmu dat
Registrace datového assetu
Pokud chcete poskytnout metadata používaná k řízení automatizovaného příjmu dat, potřebujete registraci datového assetu. Zachycené informace obsahují:
- Technické informace: Název datového prostředku, zdrojový systém, typ, formát a frekvence.
- Informace o zásadách správného řízení: Vlastník, správci, viditelnost (pro účely zjišťování) a citlivost.
PowerApps se používá k zachycení metadat popisujících jednotlivé datové prostředky. Pomocí modelem řízené aplikace zadejte informace, které se zachovají do vlastní tabulky Dataverse. Když se metadata vytvoří nebo aktualizuje v rámci služby Dataverse, aktivuje tok automatizovaného cloudu, který vyvolá další kroky zpracování.
Obrázek 3: Registrace datového assetu
Pracovní postup zřizování / zachytávání metadat
Ve fázi pracovního postupu zřizování ověříte a zachovají se data shromážděná ve fázi registrace do metastoru. Provádí se postup technického i obchodního ověření, včetně následujících:
- Ověření vstupního datového kanálu
- Aktivace pracovního postupu schválení
- Zpracování logiky pro aktivaci trvalosti metadat do úložiště metadat
- Auditování aktivit
Obrázek 4: Pracovní postup registrace
Po schválení žádostí o příjem dat pracovní postup použije rozhraní REST API Služby Azure Purview k vložení zdrojů do Azure Purview.
Podrobný pracovní postup pro onboarding datových produktů
Obrázek 5: Jak se nové datové sady ingestují (automatizované).
Obrázek 5 ukazuje podrobný proces registrace pro automatizaci příjmu nových zdrojů dat:
- Podrobnosti o zdroji se registrují, včetně produkčního prostředí a prostředí datové továrny.
- Zachytávají se omezení obrazce, formátu a kvality dat.
- Týmy datových aplikací by měly indikovat, jestli jsou citlivá data (osobní údaje). Tato klasifikace řídí proces vytváření složek Data Lake za účelem ingestování nezpracovaných, obohacených a kurátorovaných dat. Zdrojové názvy nezpracovaných a obohacených dat a názvy produktů dat kurátorované.
- Instanční objekt a skupiny zabezpečení se vytvářejí pro ingestování a udělují přístup k datové sadě.
- Úloha příjmu dat se vytvoří v metastoru služby Data Factory cílové zóny dat.
- Rozhraní API vloží definici dat do Azure Purview.
- V souladu s ověřením zdroje dat a schválením provozním týmem se podrobnosti publikují do metastoru služby Data Factory.
Plánování příjmu dat
Úlohy kopírování řízené metadaty v Azure Data Factory poskytují funkce, které umožňují řídit kanály orchestrace pomocí řádků v řídicí tabulce uložené ve službě Azure SQL Database. Nástroj pro kopírování dat můžete použít k předběžnému vytvoření kanálů řízených metadaty.
Po vytvoření kanálu pracovní postup zřizování přidá položky do řídicí tabulky, aby podporoval příjem dat ze zdrojů identifikovaných metadaty registrace datového assetu. Kanály Azure Data Factory a Azure SQL Database obsahující metastore řídicí tabulky mohou existovat v rámci každé cílové zóny dat, aby se vytvořily nové zdroje dat a ingestovaly je do cílových zón dat.
Obrázek 6: Plánování příjmu datových prostředků
Podrobný pracovní postup pro příjem nových zdrojů dat
Následující diagram ukazuje, jak načíst registrované zdroje dat v metastoru služby Data Factory SQL Database a jak se data nejprve ingestují:
Hlavní kanál příjmu dat služby Data Factory načítá konfigurace z metastoru služby Data Factory SQL Database a pak provádí iterativní spuštění se správnými parametry. Data se přesunou ze zdroje do nezpracované vrstvy v Azure Data Lake beze změny. Obrazec dat se ověřuje na základě metastoru služby Data Factory. Formáty souborů se převedou na formáty Apache Parquet nebo Avro a pak se zkopírují do rozšířené vrstvy.
Ingestované data se připojují k pracovnímu prostoru datové vědy a inženýrství Azure Databricks a definice dat se vytvoří v rámci metastoru Apache Hive cílové zóny dat.
Pokud potřebujete k zveřejnění dat použít bezserverový fond SQL Azure Synapse, mělo by vaše vlastní řešení vytvářet zobrazení nad daty v jezeře.
Pokud požadujete šifrování na úrovni řádků nebo sloupců, mělo by vaše vlastní řešení přistát data ve vašem datovém jezeře, pak ingestovat data přímo do interních tabulek ve fondech SQL a nastavit odpovídající zabezpečení výpočetních prostředků fondů SQL.
Zachycená metadata
Při použití automatizovaného příjmu dat můžete dotázat přidružená metadata a vytvořit řídicí panely pro:
- Sledujte úlohy a nejnovější časové razítko načítání dat pro datové produkty související s jejich funkcemi.
- Sledování dostupných datových produktů
- Zvětšujte objemy dat.
- Získejte aktualizace v reálném čase týkající se selhání úloh.
Provozní metadata je možné použít ke sledování:
- Úlohy, kroky úloh a jejich závislosti
- Výkon úlohy a historie výkonu
- Objem dat se zvětšuje.
- Selhání úloh.
- Změny zdrojových metadat
- Obchodní funkce, které závisí na datových produktech.
Zjišťování dat pomocí rozhraní REST API služby Azure Purview
Rozhraní REST API služby Azure Purview by se měla použít k registraci dat během počátečního příjmu dat. Pomocí rozhraní API můžete odesílat data do katalogu dat brzy po jejich ingestování.
Další informace najdete v tématu použití rozhraní REST API služby Azure Purview.
Registrace zdrojů dat
K registraci nových zdrojů dat použijte následující volání rozhraní API:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}
Parametry identifikátoru URI pro zdroj dat:
Název | Požadováno | Type | Popis |
---|---|---|---|
accountName |
True | String | Název účtu Azure Purview |
dataSourceName |
True | String | Název zdroje dat |
Použití rozhraní REST API služby Azure Purview k registraci
Následující příklady ukazují, jak pomocí rozhraní REST API služby Azure Purview zaregistrovat zdroje dat s datovými částmi:
Registrace zdroje dat Azure Data Lake Storage Gen2:
{
"kind":"AdlsGen2",
"name":"<source-name> (for example, My-AzureDataLakeStorage)",
"properties":{
"endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Registrace zdroje dat služby SQL Database:
{
"kind":"<source-kind> (for example, AdlsGen2)",
"name":"<source-name> (for example, My-AzureSQLDatabase)",
"properties":{
"serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Poznámka:
Jedná se <collection-name>
o aktuální kolekci, která existuje v účtu Azure Purview.
Vytvoření kontroly
Zjistěte, jak můžete vytvořit přihlašovací údaje pro ověřování zdrojů v Azure Purview před nastavením a spuštěním kontroly.
Ke kontrole zdrojů dat použijte následující volání rozhraní API:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/
Parametry identifikátoru URI pro kontrolu:
Název | Požadováno | Type | Popis |
---|---|---|---|
accountName |
True | String | Název účtu Azure Purview |
dataSourceName |
True | String | Název zdroje dat |
newScanName |
True | String | Název nové kontroly |
Použití rozhraní REST API služby Azure Purview ke kontrole
Následující příklady ukazují, jak můžete pomocí rozhraní REST API služby Azure Purview skenovat zdroje dat s datovými částmi:
Kontrola zdroje dat Azure Data Lake Storage Gen2:
{
"name":"<scan-name>",
"kind":"AdlsGen2Msi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AdlsGen2"
}
}
Kontrola zdroje dat služby SQL Database:
{
"name":"<scan-name>",
"kind":"AzureSqlDatabaseMsi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AzureSqlDatabase",
"databaseName": "<database-name>",
"serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
}
}
Ke kontrole zdrojů dat použijte následující volání rozhraní API:
POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro