Modul pro příjem dat nezávislý na datech

Článek
05/29/2024

Tento článek vysvětluje, jak můžete implementovat scénáře modulu pro příjem dat, které jsou nezávislé na příjmu dat, a to pomocí kombinace úloh kopírování založených na PowerApps, Azure Logic Apps a metadatech ve službě Azure Data Factory.

Scénáře modulu pro příjem dat nezávislé na datech se obvykle zaměřují na to, aby uživatelé, kteří nejsou technickými (nepracovními pracovníky), publikovali datové prostředky do Data Lake pro další zpracování. Pokud chcete tento scénář implementovat, musíte mít možnosti onboardingu, které umožňují:

Registrace datového assetu
Zachytávání metadat a zřizování pracovních postupů
Plánování příjmu dat

Uvidíte, jak tyto funkce komunikují:

Diagram možností registrace dat a interakcí

Obrázek 1: Interakce s možnostmi registrace dat

Následující diagram ukazuje, jak tento proces implementovat pomocí kombinace služeb Azure:

Diagram procesu příjmu dat, který je nezávislý na datech

Obrázek 2: Automatizovaný proces příjmu dat

Registrace datového assetu

Pokud chcete poskytnout metadata používaná k řízení automatizovaného příjmu dat, potřebujete registraci datového assetu. Zachycené informace obsahují:

Technické informace: Název datového prostředku, zdrojový systém, typ, formát a frekvence.
Informace o zásadách správného řízení: Vlastník, správci, viditelnost (pro účely zjišťování) a citlivost.

PowerApps se používá k zachycení metadat popisujících jednotlivé datové prostředky. Pomocí modelem řízené aplikace zadejte informace, které se zachovají do vlastní tabulky Dataverse. Když se metadata vytvoří nebo aktualizuje v rámci služby Dataverse, aktivuje tok automatizovaného cloudu, který vyvolá další kroky zpracování.

Diagram registrace datového assetu

Obrázek 3: Registrace datového assetu

Pracovní postup zřizování / zachytávání metadat

Ve fázi pracovního postupu zřizování ověříte a zachovají se data shromážděná ve fázi registrace do metastoru. Provádí se postup technického i obchodního ověření, včetně následujících:

Ověření vstupního datového kanálu
Aktivace pracovního postupu schválení
Zpracování logiky pro aktivaci trvalosti metadat do úložiště metadat
Auditování aktivit

Diagram pracovního postupu registrace

Obrázek 4: Pracovní postup registrace

Po schválení žádostí o příjem dat pracovní postup použije rozhraní REST API Služby Azure Purview k vložení zdrojů do Azure Purview.

Podrobný pracovní postup pro onboarding datových produktů

Diagram znázorňující, jak se nové datové sady ingestují (automatizované)

Obrázek 5: Jak se nové datové sady ingestují (automatizované).

Obrázek 5 ukazuje podrobný proces registrace pro automatizaci příjmu nových zdrojů dat:

Podrobnosti o zdroji se registrují, včetně produkčního prostředí a prostředí datové továrny.
Zachytávají se omezení obrazce, formátu a kvality dat.
Týmy datových aplikací by měly indikovat, jestli jsou citlivá data (osobní údaje). Tato klasifikace řídí proces vytváření složek Data Lake za účelem ingestování nezpracovaných, obohacených a kurátorovaných dat. Zdrojové názvy nezpracovaných a obohacených dat a názvy produktů dat kurátorované.
Instanční objekt a skupiny zabezpečení se vytvářejí pro ingestování a udělují přístup k datové sadě.
Úloha příjmu dat se vytvoří v metastoru služby Data Factory cílové zóny dat.
Rozhraní API vloží definici dat do Azure Purview.
V souladu s ověřením zdroje dat a schválením provozním týmem se podrobnosti publikují do metastoru služby Data Factory.

Plánování příjmu dat

Úlohy kopírování řízené metadaty v Azure Data Factory poskytují funkce, které umožňují řídit kanály orchestrace pomocí řádků v řídicí tabulce uložené ve službě Azure SQL Database. Nástroj pro kopírování dat můžete použít k předběžnému vytvoření kanálů řízených metadaty.

Po vytvoření kanálu pracovní postup zřizování přidá položky do řídicí tabulky, aby podporoval příjem dat ze zdrojů identifikovaných metadaty registrace datového assetu. Kanály Azure Data Factory a Azure SQL Database obsahující metastore řídicí tabulky mohou existovat v rámci každé cílové zóny dat, aby se vytvořily nové zdroje dat a ingestovaly je do cílových zón dat.

Diagram plánování příjmu datových prostředků

Obrázek 6: Plánování příjmu datových prostředků

Podrobný pracovní postup pro příjem nových zdrojů dat

Následující diagram ukazuje, jak načíst registrované zdroje dat v metastoru služby Data Factory SQL Database a jak se data nejprve ingestují:

Diagram způsobu ingestování nových zdrojů dat

Hlavní kanál příjmu dat služby Data Factory načítá konfigurace z metastoru služby Data Factory SQL Database a pak provádí iterativní spuštění se správnými parametry. Data se přesunou ze zdroje do nezpracované vrstvy v Azure Data Lake beze změny. Obrazec dat se ověřuje na základě metastoru služby Data Factory. Formáty souborů se převedou na formáty Apache Parquet nebo Avro a pak se zkopírují do rozšířené vrstvy.

Ingestované data se připojují k pracovnímu prostoru datové vědy a inženýrství Azure Databricks a definice dat se vytvoří v rámci metastoru Apache Hive cílové zóny dat.

Pokud potřebujete k zveřejnění dat použít bezserverový fond SQL Azure Synapse, mělo by vaše vlastní řešení vytvářet zobrazení nad daty v jezeře.

Pokud požadujete šifrování na úrovni řádků nebo sloupců, mělo by vaše vlastní řešení přistát data ve vašem datovém jezeře, pak ingestovat data přímo do interních tabulek ve fondech SQL a nastavit odpovídající zabezpečení výpočetních prostředků fondů SQL.

Zachycená metadata

Při použití automatizovaného příjmu dat můžete dotázat přidružená metadata a vytvořit řídicí panely pro:

Sledujte úlohy a nejnovější časové razítko načítání dat pro datové produkty související s jejich funkcemi.
Sledování dostupných datových produktů
Zvětšujte objemy dat.
Získejte aktualizace v reálném čase týkající se selhání úloh.

Provozní metadata je možné použít ke sledování:

Úlohy, kroky úloh a jejich závislosti
Výkon úlohy a historie výkonu
Objem dat se zvětšuje.
Selhání úloh.
Změny zdrojových metadat
Obchodní funkce, které závisí na datových produktech.

Zjišťování dat pomocí rozhraní REST API služby Azure Purview

Rozhraní REST API služby Azure Purview by se měla použít k registraci dat během počátečního příjmu dat. Pomocí rozhraní API můžete odesílat data do katalogu dat brzy po jejich ingestování.

Další informace najdete v tématu použití rozhraní REST API služby Azure Purview.

Registrace zdrojů dat

K registraci nových zdrojů dat použijte následující volání rozhraní API:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Parametry identifikátoru URI pro zdroj dat:

Název	Požadováno	Type	Popis
`accountName`	True	String	Název účtu Azure Purview
`dataSourceName`	True	String	Název zdroje dat

Použití rozhraní REST API služby Azure Purview k registraci

Následující příklady ukazují, jak pomocí rozhraní REST API služby Azure Purview zaregistrovat zdroje dat s datovými částmi:

Registrace zdroje dat Azure Data Lake Storage Gen2:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Registrace zdroje dat služby SQL Database:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Poznámka:

Jedná se <collection-name>o aktuální kolekci, která existuje v účtu Azure Purview.

Vytvoření kontroly

Zjistěte, jak můžete vytvořit přihlašovací údaje pro ověřování zdrojů v Azure Purview před nastavením a spuštěním kontroly.

Ke kontrole zdrojů dat použijte následující volání rozhraní API:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Parametry identifikátoru URI pro kontrolu:

Název	Požadováno	Type	Popis
`accountName`	True	String	Název účtu Azure Purview
`dataSourceName`	True	String	Název zdroje dat
`newScanName`	True	String	Název nové kontroly

Použití rozhraní REST API služby Azure Purview ke kontrole

Následující příklady ukazují, jak můžete pomocí rozhraní REST API služby Azure Purview skenovat zdroje dat s datovými částmi:

Kontrola zdroje dat Azure Data Lake Storage Gen2:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Kontrola zdroje dat služby SQL Database:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Ke kontrole zdrojů dat použijte následující volání rozhraní API:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Další kroky

Přehled služby Azure Data Lake Storage pro analýzy v cloudovém měřítku

Sdílet prostřednictvím