Så här ansluter du Azure Data Factory Azure Purview

Det här dokumentet beskriver de steg som krävs för att ansluta ett Azure Data Factory-konto med ett Azure Purview-konto för att spåra dataurkällan. Dokumentet innehåller också information om täckningsomfånget och de härledningsmönster som stöds.

Visa befintliga Data Factory anslutningar

Flera Azure-datafabriker kan ansluta till en enda Azure Purview för att skicka härledningsinformation. Med den aktuella gränsen kan du ansluta upp 10 Data Factory-konton i taget från Purview-hanteringscentret. Om du vill visa listan över Data Factory-konton som är anslutna till ditt Purview-konto gör du följande:

  1. Välj Hantering i det vänstra navigeringsfönstret.

  2. Under Härledningsanslutningar väljer du Data Factory.

  3. Listan Data Factory anslutning visas.

    Skärmbild som visar en datafabriksanslutningslista.

  4. Lägg märke till de olika värdena för anslutningsstatus:

    • Ansluten: Datafabriken är ansluten till Purview-kontot.
    • Frånkopplad: Datafabriken har åtkomst till katalogen, men den är ansluten till en annan katalog. Därför rapporteras inte data härledning till katalogen automatiskt.
    • CannotAccess: Den aktuella användaren har inte åtkomst till datafabriken, så anslutningsstatusen är okänd.

Anteckning

Om du vill Data Factory-anslutningar måste du tilldelas följande roll. Rollarv från hanteringsgrupp stöds inte. Rollen samlingsadministratörer i rotsamlingen.

Skapa en Data Factory anslutning

Anteckning

Om du vill lägga till Data Factory ta bort Data Factory måste du tilldelas följande roll. Rollarv från hanteringsgrupp stöds inte. Rollen samlingsadministratörer i rotsamlingen.

Dessutom kräver det att användarna är datafabrikens "ägare" eller "deltagare".

Följ stegen nedan för att ansluta en befintlig datafabrik till ditt Purview-konto. Du kan också ansluta Data Factory till Purview-kontot från ADF.

  1. Välj Hantering i det vänstra navigeringsfönstret.

  2. Under Härledningsanslutningar väljer du Data Factory.

  3. På sidan Data Factory väljer du Ny.

  4. Välj ditt Data Factory konto i listan och välj OK. Du kan också filtrera efter prenumerationsnamn för att begränsa listan.

    Skärmbild som visar hur du ansluter Azure Data Factory.

    Vissa Data Factory instanser kan vara inaktiverade om datafabriken redan är ansluten till det aktuella Purview-kontot eller om datafabriken inte har någon hanterad identitet.

    Ett varningsmeddelande visas om någon av de valda datafabrikerna redan är ansluten till ett annat Purview-konto. När du väljer OK Data Factory anslutningen till det andra Purview-kontot från. Inga ytterligare bekräftelser krävs.

    Skärmbild som visar en varning om att Azure Data Factory.

Anteckning

Vi har nu stöd för att lägga till högst 10 datafabriker samtidigt. Om du vill lägga till fler än 10 datafabriker samtidigt kan du skapa en supportbiljett.

Så här fungerar autentisering

Data Factory-hanterade identiteter används för att autentisera push-åtgärder från datafabriken till Purview. När du ansluter datafabriken till Purview i användargränssnittet läggs rolltilldelningen till automatiskt.

Bevilja datafabrikens roll som dataman över den hanterade identiteten i Purview-rotsamlingen . Läs mer om Åtkomstkontroll i Azure Purview och Lägg till roller och begränsa åtkomsten via samlingar.

Ta bort datafabriksanslutningar

Om du vill ta bort en datafabriksanslutning gör du följande:

  1. På Data Factory väljer du knappen Ta bort bredvid en eller flera datafabriksanslutningar.

  2. Välj Bekräfta i popup-menyn för att ta bort de valda datafabriksanslutningarna.

    Skärmbild som visar hur du väljer datafabriker för att ta bort anslutningen.

Stödda Azure Data Factory aktiviteter

Azure Purview samlar in körningsurlinjen från följande Azure Data Factory aktiviteter:

Viktigt

Azure Purview släpper ursprung om källan eller målet använder ett datalagringssystem som inte stöds.

Integreringen mellan Data Factory och Purview stöder endast en delmängd av de datasystem Data Factory stöder, enligt beskrivningen i följande avsnitt.

aktiviteten Kopiera support

Datalager Stöds
Azure Blob Storage Ja
Azure Cognitive Search Yes
Azure Cosmos DB (SQL API)* Yes
Azure Cosmos DB API för MongoDB * Yes
Azure Data Explorer * Ja
Azure Data Lake Storage Gen1 Ja
Azure Data Lake Storage Gen2 Ja
Azure Database for Maria DB * Yes
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure Files Yes
Azure SQL Database * Yes
Azure SQL Managed Instance* Yes
Azure Synapse Analytics * Yes
Azure Dedicated SQL pool (tidigare SQL DW)* Ja
Azure Table Storage Ja
Amazon S3 Yes
Registreringsdatafilen * Yes
Oracle * Yes
SAP-tabell (vid anslutning till SAP ECC eller SAP S/4HANA) Yes
SQL Server * Yes
Teradata * Yes

* Azure Purview stöder för närvarande inte frågor eller lagrade procedurer för härledning eller genomsökning. Härledning är begränsad till endast tabell- och visningskällor.

Om du använder en egen värd Integration Runtime du den minimala versionen med härledningsstöd för:

  • Användningsfall: version 5.9.7885.3 eller senare
  • Kopiera data från Oracle: version 5.10 eller senare
  • Kopiera data till Azure Synapse Analytics via COPY-kommando eller PolyBase: version 5.10 eller senare

Begränsningar för kopieringsaktivitets härledning

Om du använder följande funktioner för kopieringsaktivitet stöds för närvarande inte härledning:

  • Kopiera data till Azure Data Lake Storage Gen1 med binärt format.
  • Komprimeringsinställning för binär, avgränsad text, Excel, JSON och XML-filer.
  • Alternativ för källpartition för Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server och SAP Table.
  • Kopiera data till filbaserad mottagare med inställningen maximalt antal rader per fil.

Utöver härledning rapporteras datatillgångsschemat (visas på fliken Tillgång -> Schema) för följande anslutningsappar:

  • CSV- och Parquet-filer på Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 och Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Stöd Flow data

Datalager Stöds
Azure Blob Storage Ja
Azure Cosmos DB (SQL API)* Ja
Azure Data Lake Storage Gen1 Ja
Azure Data Lake Storage Gen2 Ja
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure SQL Database * Yes
Azure SQL Managed Instance* Yes
Azure Synapse Analytics * Yes
Azure Dedicated SQL pool (tidigare SQL DW)* Yes

* Azure Purview stöder för närvarande inte frågor eller lagrade procedurer för härledning eller genomsökning. Härledning är begränsad till endast tabell- och visningskällor.

Begränsningar för dataflödets härledning

För närvarande integreras inte dataflödets härledning med ResursuppsättningenPurview.

Köra stöd för SSIS-paket

Se datalager som stöds.

Få åtkomst till ett skyddat Azure Purview-konto

Om ditt Purview-konto skyddas av brandväggen kan du läsa om hur du Data Factory åtkomst till ett skyddat Purview-konto via Rensa privata slutpunkter.

Ta Data Factory härledning till Purview

För en genomgång från slut till slut följer du Självstudie: Skicka Data Factory data till Azure Purview.

Härledningsmönster som stöds

Det finns flera härledningsmönster som Azure Purview stöder. Genererade ursprungsdata baseras på vilken typ av källa och mottagare som används i Data Factory aktiviteter. Även Data Factory har stöd för över 80 källor och mottagare, stöder Azure Purview endast en delmängd, enligt listan i Supported Azure Data Factory activities.

Information om Data Factory att skicka information om härledning finns i Kom igång med härledning.

Några andra sätt att hitta information i vyn för härledning är följande:

  • På fliken Härledning hovrar du över former för att förhandsgranska ytterligare information om tillgången i knappbeskrivningen.
  • Välj noden eller kanten för att se vilken tillgångstyp den tillhör eller om du vill byta tillgångar.
  • Kolumner i en datauppsättning visas på vänster sida av fliken Härledning. Mer information om härledning på kolumnnivå finns i Datamängdskolumnens härledning.

Data härledning för 1:1-åtgärder

Det vanligaste mönstret för att samla in data härledning är att flytta data från en enda indatauppsättning till en enda utdatauppsättning, med en process däremellan.

Ett exempel på det här mönstret är följande:

  • 1 källa/indata: Kund (SQL Tabell)
  • 1 mottagare/utdata: Customer1.csv (Azure Blob)
  • 1 process: CopyCustomerInfo1 #Customer1.csv (Data Factory aktiviteten Kopiera)

Skärmbild som visar härledning för en en-till-en Data Factory kopieringsåtgärd.

Dataförflyttning med stöd för 1:1-härledning och jokertecken

Ett annat vanligt scenario för att samla in härledning är att använda ett jokertecken för att kopiera filer från en enda indatauppsättning till en enda utdatauppsättning. Jokertecknet gör att kopieringsaktiviteten kan matcha flera filer för kopiering med en gemensam del av filnamnet. Azure Purview samlar in härledning på filnivå för varje enskild fil som kopieras av motsvarande kopieringsaktivitet.

Ett exempel på det här mönstret är följande:

  • Källa/indata: CustomerCall *.csv (ADLS Gen2 sökväg)
  • Mottagare/utdata: CustomerCall *.csv (Azure-blobfil)
  • 1 process: CopyGen2ToBlob #CustomerCall.csv (Data Factory aktiviteten Kopiera)

Skärmbild som visar härledning för en en-till-en-kopieringsåtgärd med stöd för jokertecken.

Dataförflyttning med n:1-härledning

Du kan använda Data Flow aktiviteter för att utföra dataåtgärder som sammanfogning, koppling och så vidare. Mer än en källdatauppsättning kan användas för att skapa en måldatauppsättning. I det här exemplet samlar Azure Purview in härledning på filnivå för enskilda indatafiler till en SQL-tabell som är en del av en Data Flow-aktivitet.

Ett exempel på det här mönstret är följande:

  • 2 källor/indata: Customer.csv, Sales.parquet (ADLS Gen2 Path)
  • 1 mottagare/utdata: Företagsdata (Azure SQL tabell)
  • 1 process: DataFlowBlobsToSQL (Data Factory Data Flow aktivitet)

Skärmbild som visar härledning för en n till en A D F data Flow åtgärd.

Härledning för resursuppsättningar

En resursuppsättning är ett logiskt objekt i katalogen som representerar många partitionsfiler i den underliggande lagringen. Mer information finns i Förstå resursuppsättningar. När Azure Purview samlar in härledning från Azure Data Factory tillämpar det reglerna för att normalisera de enskilda partitionsfilerna och skapa ett enda logiskt objekt.

I följande exempel skapas en Azure Data Lake Gen2-resursuppsättning från en Azure Blob:

  • 1 källa/indata: _management.csv (Azure Blob)
  • 1 mottagare/utdata: _ Medarbetaremanagement.csv (Azure Data Lake Gen 2)
  • 1 process: CopyBlobToAdlsGen2 _ RS (Data Factory aktiviteten Kopiera)

Skärmbild som visar härledning för en resursuppsättning.

Nästa steg

Självstudie: Skicka Data Factory data från data till Azure Purview

Användarhandbok för katalog härledning

Länk till Azure Data Share för härledning