Dataagnostisk inmatningsmotor

Artikel
05/29/2024

Den här artikeln beskriver hur du kan implementera scenarier för dataagnostisk inmatningsmotor med hjälp av en kombination av PowerApps, Azure Logic Apps och metadatadrivna kopieringsuppgifter i Azure Data Factory.

Scenarier med dataagnostisk inmatningsmotor fokuserar vanligtvis på att låta icke-tekniska (icke-datatekniker) användare publicera datatillgångar till en Data Lake för vidare bearbetning. För att implementera det här scenariot måste du ha onboarding-funktioner som aktiverar:

Registrering av datatillgång
Etablering av arbetsflöden och metadatainsamling
Schemaläggning av inmatning

Du kan se hur dessa funktioner interagerar:

Diagram över funktioner och interaktioner för dataregistrering

Bild 1: Interaktioner med dataregistreringsfunktioner.

Följande diagram visar hur du implementerar den här processen med hjälp av en kombination av Azure-tjänster:

Diagram över en dataagnostisk motorinmatningsprocess

Bild 2: Automatiserad inmatningsprocess.

Registrering av datatillgång

För att tillhandahålla de metadata som används för automatisk inmatning behöver du registrering av datatillgång. Informationen som du samlar in innehåller:

Teknisk information: Namn på datatillgång, källsystem, typ, format och frekvens.
Styrningsinformation: Ägare, förvaltare, synlighet (i identifieringssyfte) och känslighet.

PowerApps används för att samla in metadata som beskriver varje datatillgång. Använd en modelldriven app för att ange den information som sparas i en anpassad Dataverse-tabell. När metadata skapas eller uppdateras i Dataverse utlöses ett automatiserat molnflöde som anropar ytterligare bearbetningssteg.

Diagram över en datatillgångsregistrering.

Bild 3: Registrering av datatillgång.

Etableringsarbetsflöde/metadatainsamling

I steget etableringsarbetsflöde verifierar och bevarar du data som samlats in i registreringssteget till metaarkivet. Både tekniska och affärsverifieringssteg utförs, inklusive:

Validering av indataflöde
Utlösande av godkännandearbetsflöde
Logikbearbetning för att utlösa beständighet för metadata till metadatalagret
Aktivitetsgranskning

Diagram över arbetsflödet för registrering

Bild 4: Arbetsflöde för registrering.

När inmatningsbegäranden har godkänts använder arbetsflödet REST-API:et Azure Purview för att infoga källorna i Azure Purview.

Detaljerat arbetsflöde för registrering av dataprodukter

Diagram som visar hur nya datauppsättningar matas in (automatiserad)

Bild 5: Hur nya datauppsättningar matas in (automatiserad).

Bild 5 visar den detaljerade registreringsprocessen för att automatisera inmatningen av nya datakällor:

Källinformation registreras, inklusive produktions- och datafabriksmiljöer.
Dataform, format och kvalitetsbegränsningar samlas in.
Dataprogramteam bör ange om data är känsliga (personliga data) Den här klassificeringen styr processen under vilken datasjömappar skapas för att mata in rådata, berikade och kuraterade data. Källan namnger rådata och berikade data och dataproduktnamnen har kurerat data.
Tjänstens huvudnamn och säkerhetsgrupper skapas för att mata in och ge åtkomst till en datauppsättning.
Ett inmatningsjobb skapas i datalandningszonens Data Factory-metaarkiv.
Ett API infogar datadefinitionen i Azure Purview.
Med förbehåll för valideringen av datakällan och godkännande av ops-teamet publiceras information till ett Data Factory-metaarkiv.

Schemaläggning av inmatning

I Azure Data Factory tillhandahåller metadatadrivna kopieringsuppgifter funktioner som gör att orkestreringspipelines kan styras av rader i en kontrolltabell som lagras i Azure SQL Database. Du kan använda verktyget Kopiera data för att skapa metadatadrivna pipelines i förväg.

När en pipeline har skapats lägger ditt etableringsarbetsflöde till poster i kontrolltabellen för att stödja inmatning från källor som identifieras av metadata för datatillgångsregistrering. Azure Data Factory-pipelines och Azure SQL Database som innehåller ditt kontrolltabellmetaarkiv kan både finnas i varje datalandningszon för att skapa nya datakällor och mata in dem i datalandningszoner.

Diagram över schemaläggning av datatillgångsinmatning

Bild 6: Schemaläggning av datatillgångsinmatning.

Detaljerat arbetsflöde för att mata in nya datakällor

Följande diagram visar hur du hämtar registrerade datakällor i ett Data Factory SQL Database-metaarkiv och hur data matas in först:

Diagram över hur nya datakällor matas in

Data Factory-inmatningens huvudpipeline läser konfigurationer från ett Data Factory SQL Database-metaarkiv och kör sedan iterativt med rätt parametrar. Data överförs från källan till rådatalagret i Azure Data Lake med liten eller ingen ändring. Dataformen verifieras baserat på ditt Data Factory-metaarkiv. Filformat konverteras till antingen Apache Parquet- eller Avro-format och kopieras sedan till det berikade lagret.

Data som matas in ansluter till en Azure Databricks-arbetsyta för datavetenskap och teknik, och en datadefinition skapas i Apache Hive-metaarkivet i datalandningszonen.

Om du behöver använda en serverlös SQL-pool i Azure Synapse för att exponera data bör din anpassade lösning skapa vyer över data i sjön.

Om du behöver kryptering på radnivå eller kolumnnivå bör din anpassade lösning landa data i datasjön och sedan mata in data direkt i interna tabeller i SQL-poolerna och konfigurera lämplig säkerhet för SQL-poolberäkningen.

Insamlade metadata

När du använder automatiserad datainmatning kan du köra frågor mot associerade metadata och skapa instrumentpaneler för att:

Spåra jobb och de senaste tidsstämplarna för datainläsning för dataprodukter relaterade till deras funktioner.
Spåra tillgängliga dataprodukter.
Utöka datavolymer.
Hämta realtidsuppdateringar om jobbfel.

Operativa metadata kan användas för att spåra:

Jobb, jobbsteg och deras beroenden.
Jobbprestanda och prestandahistorik.
Datavolymtillväxt.
Jobbfel.
Ändringar i källmetadata.
Affärsfunktioner som är beroende av dataprodukter.

Använda Rest-API:et för Azure Purview för att identifiera data

Rest-API:er för Azure Purview ska användas för att registrera data under den första inmatningen. Du kan använda API:erna för att skicka data till datakatalogen strax efter att de har matats in.

Mer information finns i hur du använder Rest-API:er för Azure Purview.

Registrera datakällor

Använd följande API-anrop för att registrera nya datakällor:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

URI-parametrar för datakällan:

Namn	Obligatoriskt	Type	Beskrivning
`accountName`	Sant	String	Namnet på Azure Purview-kontot
`dataSourceName`	Sant	String	Namnet på datakällan

Använda Azure Purview REST API för registrering

Följande exempel visar hur du använder Rest-API:et för Azure Purview för att registrera datakällor med nyttolaster:

Registrera en Azure Data Lake Storage Gen2-datakälla:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Registrera en SQL Database-datakälla:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Kommentar

<collection-name>är en aktuell samling som finns i ett Azure Purview-konto.

Skapa en genomsökning

Lär dig hur du kan skapa autentiseringsuppgifter för att autentisera källor i Azure Purview innan du konfigurerar och kör en genomsökning.

Använd följande API-anrop för att söka igenom datakällor:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

URI-parametrar för en genomsökning:

Namn	Obligatoriskt	Type	Beskrivning
`accountName`	Sant	String	Namnet på Azure Purview-kontot
`dataSourceName`	Sant	String	Namnet på datakällan
`newScanName`	Sant	String	Namnet på den nya genomsökningen

Använda Rest-API:et för Azure Purview för genomsökning

Följande exempel visar hur du kan använda Rest-API:et för Azure Purview för att genomsöka datakällor med nyttolaster:

Skanna en Azure Data Lake Storage Gen2-datakälla:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Skanna en SQL Database-datakälla:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Använd följande API-anrop för att söka igenom datakällor:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Nästa steg

Översikt över Azure Data Lake Storage för analys i molnskala

Dela via