Verbinding maken Azure Data Factory Azure Purview

In dit document worden de stappen uitgelegd die nodig zijn om een account Azure Data Factory maken met een Azure Purview-account om de gegevensvereeding bij te houden. Het document gaat ook in op de details van het dekkingsbereik en ondersteunde gegevens van de gegevenslijnpatronen.

Bestaande Data Factory weergeven

Meerdere Azure Data Factories kunnen verbinding maken met één Azure Purview om gegevens over de gegevens van de gegevens voor gegevens van de gegevens in de gegevens van de gegevens te pushen. Met de huidige limiet kunt u vanuit het Purview-beheercentrum maximaal 10 Data Factory accounts tegelijk verbinden. Ga als volgt te werk om de lijst Data Factory accounts weer te geven die zijn verbonden met uw Purview-account:

  1. Selecteer Beheer in het navigatiedeelvenster aan de linkerkant.

  2. Selecteer onder Lijnverbindingen de optie Data Factory.

  3. De Data Factory verbindingslijst wordt weergegeven.

    Scherm opname van een data factory verbindingslijst.

  4. Let op de verschillende waarden voor verbindingsstatus:

    • Verbonden: de data factory is verbonden met het Purview-account.
    • Verbinding verbroken: data factory heeft toegang tot de catalogus, maar is verbonden met een andere catalogus. Als gevolg hiervan wordt gegevensrage niet automatisch gerapporteerd aan de catalogus.
    • CannotAccess: de huidige gebruiker heeft geen toegang tot de data factory, dus de verbindingsstatus is onbekend.

Notitie

Als u de Data Factory wilt weergeven, moet aan u de volgende rol zijn toegewezen. Rol overname van beheergroep wordt niet ondersteund. De rol Verzamelingsbeheerders voor de hoofdverzameling.

Nieuwe verbinding Data Factory maken

Notitie

Als u de Data Factory wilt toevoegen of verwijderen, moet aan u de volgende rol worden toegewezen. Rol overname van beheergroep wordt niet ondersteund. De rol Verzamelingsbeheerders voor de hoofdverzameling.

Bovendien moeten de gebruikers de eigenaar van data factory of inzender van de gebruiker zijn.

Volg de onderstaande stappen om een bestaande data factory verbinding te maken met uw Purview-account. U kunt ook verbinding maken Data Factory account van ADF te verwijderen.

  1. Selecteer Beheer in het navigatiedeelvenster aan de linkerkant.

  2. Selecteer onder Lijnverbindingen de optie Data Factory.

  3. Selecteer op Data Factory pagina Verbinding maken de optie Nieuw.

  4. Selecteer uw Data Factory account in de lijst en selecteer OK. U kunt ook filteren op abonnementsnaam om uw lijst te beperken.

    Schermopname die laat zien hoe u verbinding Azure Data Factory.

    Sommige Data Factory zijn mogelijk uitgeschakeld als de data factory al is verbonden met het huidige Purview-account of als de data factory geen beheerde identiteit heeft.

    Er wordt een waarschuwing weergegeven als een van de geselecteerde Data Factories al is verbonden met een ander Purview-account. Als u OK selecteert, Data Factory verbinding met het andere Account voor opsmaken verbroken. Er zijn geen aanvullende bevestigingen vereist.

    Schermopname met een waarschuwing om de verbinding met Azure Data Factory.

Notitie

We ondersteunen nu het toevoegen van niet meer dan 10 gegevensfabrieken tegelijk. Als u meer dan 10 gegevensfabrieken tegelijk wilt toevoegen, kunt u een ondersteuningsticket indienen.

Hoe verificatie werkt

De beheerde identiteit van Data Factory wordt gebruikt voor het verifiëren van pushbewerkingen voor gegevens vanaf data factory naar Purview. Wanneer u verbinding data factory met Purview op de gebruikersinterface, wordt de roltoewijzing automatisch toegevoegd.

Verleen de data factory identiteit van de beheerder de rol DataAtor in Hoofdverzameling opsnuit. Meer informatie over toegangsbeheer in Azure Purview en Rollen toevoegen en toegang beperken via verzamelingen.

Verbinding data factory verwijderen

Ga als volgt te data factory verbinding te verwijderen:

  1. Selecteer op Data Factory pagina Verbinding maken de knop Verwijderen naast een of meer data factory verbindingen.

  2. Selecteer Bevestigen in de pop-up om de geselecteerde data factory verwijderen.

    Schermopname die laat zien hoe u gegevensfabrieken selecteert om de verbinding te verwijderen.

Ondersteunde Azure Data Factory activiteiten

Azure Purview legt runtime-gegevensverloop vast uit de volgende Azure Data Factory activiteiten:

Belangrijk

Azure Purview laat de herkomst vallen als de bron of bestemming gebruikmaakt van een niet-ondersteund gegevensopslagsysteem.

De integratie tussen Data Factory en Purview ondersteunt slechts een subset van de gegevenssystemen die Data Factory ondersteunt, zoals beschreven in de volgende secties.

Copy-activiteit ondersteuning

Gegevensarchief Ondersteund
Azure Blob Storage Ja
Azure Cognitive Search Yes
Azure Cosmos DB (SQL API)* Yes
Azure Cosmos DB API voor MongoDB * Yes
Azure Data Explorer * Ja
Azure Data Lake Storage Gen1 Ja
Azure Data Lake Storage Gen2 Ja
Azure Database for Maria DB * Yes
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure Files Yes
Azure SQL Database * Yes
Azure SQL Managed Instance* Yes
Azure Synapse Analytics * Yes
Azure Dedicated SQL-pool (voorheen SQL DW)* Ja
Azure Table Storage Ja
Amazon S3 Yes
Component * Yes
Oracle * Yes
SAP-tabel (bij het verbinden met SAP ECC of SAP S/4HANA) Yes
SQL Server * Yes
Teradata * Yes

* Azure Purview biedt momenteel geen ondersteuning voor query's of opgeslagen procedures voor gegevenseedage of scannen. Gegevensbron is beperkt tot tabel- en weergavebronnen.

Als u zelf-hostend Integration Runtime, noteert u de minimale versie met ondersteuning voor gegevensvereeding voor:

  • Gebruikscases: versie 5.9.7885.3 of hoger
  • Gegevens kopiëren van Oracle: versie 5.10 of hoger
  • Gegevens kopiëren naar Azure Synapse Analytics via de opdracht COPY of PolyBase: versie 5.10 of hoger

Beperkingen voor de gegevens van kopieeractiviteit

Als u momenteel de volgende functies voor kopieeractiviteit gebruikt, wordt de gegevenseedage nog niet ondersteund:

  • Gegevens kopiëren naar Azure Data Lake Storage Gen1 met behulp van binaire indeling.
  • Compressie-instelling voor binaire, tekst met scheidingstekens, Excel, JSON- en XML-bestanden.
  • Bronpartitieopties voor Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server en SAP Table.
  • Kopieer gegevens naar de sink op basis van bestanden met de instelling van het maximum aantal rijen per bestand.

Naast gegevensgegevens wordt het gegevensactivumschema (weergegeven op het tabblad Asset -> Schema) gerapporteerd voor de volgende connectors:

  • CSV- en Parquet-bestanden in Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 en Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Ondersteuning Flow data-Flow

Gegevensarchief Ondersteund
Azure Blob Storage Ja
Azure Cosmos DB (SQL API)* Ja
Azure Data Lake Storage Gen1 Ja
Azure Data Lake Storage Gen2 Ja
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure SQL Database * Yes
Azure SQL Managed Instance* Yes
Azure Synapse Analytics * Yes
Azure Dedicated SQL-pool (voorheen SQL DW)* Yes

* Azure Purview biedt momenteel geen ondersteuning voor query's of opgeslagen procedures voor gegevenseedage of scannen. Gegevensbron is beperkt tot tabel- en weergavebronnen.

Beperkingen voor gegevensstroomlijn

Op dit moment kan de gegevensstroomlijn niet worden geïntegreerd met De resourceset Purview.

Ondersteuning voor SSIS-pakket uitvoeren

Raadpleeg ondersteunde gegevensopslag.

Toegang tot beveiligd Azure Purview-account

Als uw Purview-account is beveiligd door een firewall, leert u hoe u toegang Data Factory krijgen tot een beveiligd Purview-account via privé-eindpunten van Purview.

Regel Data Factory in Purview

Voor een end-to-end overzicht volgt u de Zelfstudie: Gegevens van Data Factory gegevens naar Azure Purview pushen.

Ondersteunde lijnpatronen

Er zijn verschillende soorten gegevens die door Azure Purview worden ondersteund. De gegenereerde herkomstgegevens zijn gebaseerd op het type bron en sink dat wordt gebruikt in de Data Factory activiteiten. Hoewel Data Factory meer dan 80 bron- en sinks ondersteunt, ondersteunt Azure Purview alleen een subset, zoals vermeld in Ondersteunde Azure Data Factory activiteiten.

Zie Aan de Data Factory voor het configureren van gegevens voor het verzenden van gegevens van gegevens voor gegevens van gegevens over gegevens van gegevens in de gegevensverwerking.

Enkele andere manieren om informatie in de gegevensweergave te vinden, zijn onder andere:

  • Wijs op het tabblad Gegevensgegevens vormen aan om een voorbeeld van aanvullende informatie over de asset in de knopinfo te bekijken.
  • Selecteer het knooppunt of de rand om het assettype te zien waar het bij hoort of om van assets te wisselen.
  • Kolommen van een gegevensset worden weergegeven aan de linkerkant van het tabblad Gegevens. Zie Gegevenssetkolomlijn voor meer informatie over de gegevensvereeding op kolomniveau.

Gegevensrage voor 1:1-bewerkingen

Het meest voorkomende patroon voor het vastleggen van gegevensrage is het verplaatsen van gegevens van één invoergegevensset naar één uitvoergegevensset, met een proces ertussenin.

Een voorbeeld van dit patroon is het volgende:

  • 1 bron/invoer: Klant (SQL Tabel)
  • 1 sink/uitvoer: Customer1.csv (Azure Blob)
  • 1 proces: CopyCustomerInfo1 #Customer1.csv (Data Factory Copy-activiteit)

Schermopname met de gegevens voor een een-op-een Data Factory kopieerbewerking.

Gegevens movement with 1:1 lineage and wildcard support (Gegevens verplaatsen met 1:1-ondersteuning voor gegevens en jokertekens)

Een ander veelvoorkomende scenario voor het vastleggen van gegevens over gegevenssets is het gebruik van een jokerteken om bestanden van één invoerset naar één uitvoerset te kopiëren. Met het jokerteken kan de kopieeractiviteit overeenkomen met meerdere bestanden voor het kopiëren met behulp van een gemeenschappelijk gedeelte van de bestandsnaam. Azure Purview legt de gegevensvereeding op bestandsniveau vast voor elk afzonderlijk bestand dat is gekopieerd door de bijbehorende kopieeractiviteit.

Een voorbeeld van dit patroon is het volgende:

  • Bron/invoer: CustomerCall *.csv (ADLS Gen2 pad)
  • Sink/uitvoer: CustomerCall *.csv (Azure Blob-bestand)
  • 1 proces: CopyGen2ToBlob #CustomerCall.csv (Data Factory Copy-activiteit)

Schermopname met de gegevens voor een een-op-een-kopieerbewerking met ondersteuning voor jokertekens.

Gegevens movement with n:1 lineage (Gegevens verplaatsen met n:1-gegevenseedage)

U kunt Data Flow om gegevensbewerkingen uit te voeren, zoals samenvoegen, samenvoegen, en meer. Er kan meer dan één bronset worden gebruikt om een doelset te produceren. In dit voorbeeld legt Azure Purview de gegevenslijn op bestandsniveau vast voor afzonderlijke invoerbestanden voor een SQL-tabel die deel uitmaakt van een data Flow activiteit.

Een voorbeeld van dit patroon is het volgende:

  • 2 bronnen/invoer: Customer.csv, Sales.parquet (ADLS Gen2 Pad)
  • 1 sink/uitvoer: Bedrijfsgegevens (Azure SQL tabel)
  • 1 proces: DataFlowBlobsToSQL (Data Factory Data Flow activiteit)

Schermopname van de gegevenseedage voor een n naar een A D F-Flow bewerking.

Regel voor resourcesets

Een resourceset is een logisch object in de catalogus dat veel partitiebestanden in de onderliggende opslag vertegenwoordigt. Zie Understanding Resource sets (Resourcesets begrijpen) voor meer informatie. Wanneer Azure Purview gegevens van de Azure Data Factory, worden de regels toegepast om de afzonderlijke partitiebestanden te normaliseren en één logisch object te maken.

In het volgende voorbeeld wordt een Azure Data Lake Gen2-resourceset gemaakt van een Azure Blob:

  • 1 bron/invoer: Employee _management.csv (Azure Blob)
  • 1 sink/uitvoer: Employee _management.csv (Azure Data Lake Gen 2)
  • 1 proces: CopyBlobToAdlsGen2 _ RS (Data Factory Copy-activiteit)

Schermopname van de regel voor een resourceset.

Volgende stappen

Zelfstudie: gegevens Data Factory gegevens van gegevens naar Azure Purview pushen

Gebruikershandleiding catalogusgegevens

Koppeling naar Azure Data Share voor de regel