Verbinding maken Azure Data Factory Azure Purview
In dit document worden de stappen uitgelegd die nodig zijn om een account Azure Data Factory maken met een Azure Purview-account om de gegevensvereeding bij te houden. Het document gaat ook in op de details van het dekkingsbereik en ondersteunde gegevens van de gegevenslijnpatronen.
Bestaande Data Factory weergeven
Meerdere Azure Data Factories kunnen verbinding maken met één Azure Purview om gegevens over de gegevens van de gegevens voor gegevens van de gegevens in de gegevens van de gegevens te pushen. Met de huidige limiet kunt u vanuit het Purview-beheercentrum maximaal 10 Data Factory accounts tegelijk verbinden. Ga als volgt te werk om de lijst Data Factory accounts weer te geven die zijn verbonden met uw Purview-account:
Selecteer Beheer in het navigatiedeelvenster aan de linkerkant.
Selecteer onder Lijnverbindingen de optie Data Factory.
De Data Factory verbindingslijst wordt weergegeven.
Let op de verschillende waarden voor verbindingsstatus:
- Verbonden: de data factory is verbonden met het Purview-account.
- Verbinding verbroken: data factory heeft toegang tot de catalogus, maar is verbonden met een andere catalogus. Als gevolg hiervan wordt gegevensrage niet automatisch gerapporteerd aan de catalogus.
- CannotAccess: de huidige gebruiker heeft geen toegang tot de data factory, dus de verbindingsstatus is onbekend.
Notitie
Als u de Data Factory wilt weergeven, moet aan u de volgende rol zijn toegewezen. Rol overname van beheergroep wordt niet ondersteund. De rol Verzamelingsbeheerders voor de hoofdverzameling.
Nieuwe verbinding Data Factory maken
Notitie
Als u de Data Factory wilt toevoegen of verwijderen, moet aan u de volgende rol worden toegewezen. Rol overname van beheergroep wordt niet ondersteund. De rol Verzamelingsbeheerders voor de hoofdverzameling.
Bovendien moeten de gebruikers de eigenaar van data factory of inzender van de gebruiker zijn.
Volg de onderstaande stappen om een bestaande data factory verbinding te maken met uw Purview-account. U kunt ook verbinding maken Data Factory account van ADF te verwijderen.
Selecteer Beheer in het navigatiedeelvenster aan de linkerkant.
Selecteer onder Lijnverbindingen de optie Data Factory.
Selecteer op Data Factory pagina Verbinding maken de optie Nieuw.
Selecteer uw Data Factory account in de lijst en selecteer OK. U kunt ook filteren op abonnementsnaam om uw lijst te beperken.
Sommige Data Factory zijn mogelijk uitgeschakeld als de data factory al is verbonden met het huidige Purview-account of als de data factory geen beheerde identiteit heeft.
Er wordt een waarschuwing weergegeven als een van de geselecteerde Data Factories al is verbonden met een ander Purview-account. Als u OK selecteert, Data Factory verbinding met het andere Account voor opsmaken verbroken. Er zijn geen aanvullende bevestigingen vereist.
Notitie
We ondersteunen nu het toevoegen van niet meer dan 10 gegevensfabrieken tegelijk. Als u meer dan 10 gegevensfabrieken tegelijk wilt toevoegen, kunt u een ondersteuningsticket indienen.
Hoe verificatie werkt
De beheerde identiteit van Data Factory wordt gebruikt voor het verifiëren van pushbewerkingen voor gegevens vanaf data factory naar Purview. Wanneer u verbinding data factory met Purview op de gebruikersinterface, wordt de roltoewijzing automatisch toegevoegd.
Verleen de data factory identiteit van de beheerder de rol DataAtor in Hoofdverzameling opsnuit. Meer informatie over toegangsbeheer in Azure Purview en Rollen toevoegen en toegang beperken via verzamelingen.
Verbinding data factory verwijderen
Ga als volgt te data factory verbinding te verwijderen:
Selecteer op Data Factory pagina Verbinding maken de knop Verwijderen naast een of meer data factory verbindingen.
Selecteer Bevestigen in de pop-up om de geselecteerde data factory verwijderen.
Ondersteunde Azure Data Factory activiteiten
Azure Purview legt runtime-gegevensverloop vast uit de volgende Azure Data Factory activiteiten:
Belangrijk
Azure Purview laat de herkomst vallen als de bron of bestemming gebruikmaakt van een niet-ondersteund gegevensopslagsysteem.
De integratie tussen Data Factory en Purview ondersteunt slechts een subset van de gegevenssystemen die Data Factory ondersteunt, zoals beschreven in de volgende secties.
Copy-activiteit ondersteuning
| Gegevensarchief | Ondersteund |
|---|---|
| Azure Blob Storage | Ja |
| Azure Cognitive Search | Yes |
| Azure Cosmos DB (SQL API)* | Yes |
| Azure Cosmos DB API voor MongoDB * | Yes |
| Azure Data Explorer * | Ja |
| Azure Data Lake Storage Gen1 | Ja |
| Azure Data Lake Storage Gen2 | Ja |
| Azure Database for Maria DB * | Yes |
| Azure Database for MySQL * | Yes |
| Azure Database for PostgreSQL * | Yes |
| Azure Files | Yes |
| Azure SQL Database * | Yes |
| Azure SQL Managed Instance* | Yes |
| Azure Synapse Analytics * | Yes |
| Azure Dedicated SQL-pool (voorheen SQL DW)* | Ja |
| Azure Table Storage | Ja |
| Amazon S3 | Yes |
| Component * | Yes |
| Oracle * | Yes |
| SAP-tabel (bij het verbinden met SAP ECC of SAP S/4HANA) | Yes |
| SQL Server * | Yes |
| Teradata * | Yes |
* Azure Purview biedt momenteel geen ondersteuning voor query's of opgeslagen procedures voor gegevenseedage of scannen. Gegevensbron is beperkt tot tabel- en weergavebronnen.
Als u zelf-hostend Integration Runtime, noteert u de minimale versie met ondersteuning voor gegevensvereeding voor:
- Gebruikscases: versie 5.9.7885.3 of hoger
- Gegevens kopiëren van Oracle: versie 5.10 of hoger
- Gegevens kopiëren naar Azure Synapse Analytics via de opdracht COPY of PolyBase: versie 5.10 of hoger
Beperkingen voor de gegevens van kopieeractiviteit
Als u momenteel de volgende functies voor kopieeractiviteit gebruikt, wordt de gegevenseedage nog niet ondersteund:
- Gegevens kopiëren naar Azure Data Lake Storage Gen1 met behulp van binaire indeling.
- Compressie-instelling voor binaire, tekst met scheidingstekens, Excel, JSON- en XML-bestanden.
- Bronpartitieopties voor Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server en SAP Table.
- Kopieer gegevens naar de sink op basis van bestanden met de instelling van het maximum aantal rijen per bestand.
Naast gegevensgegevens wordt het gegevensactivumschema (weergegeven op het tabblad Asset -> Schema) gerapporteerd voor de volgende connectors:
- CSV- en Parquet-bestanden in Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 en Amazon S3
- Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata
Ondersteuning Flow data-Flow
| Gegevensarchief | Ondersteund |
|---|---|
| Azure Blob Storage | Ja |
| Azure Cosmos DB (SQL API)* | Ja |
| Azure Data Lake Storage Gen1 | Ja |
| Azure Data Lake Storage Gen2 | Ja |
| Azure Database for MySQL * | Yes |
| Azure Database for PostgreSQL * | Yes |
| Azure SQL Database * | Yes |
| Azure SQL Managed Instance* | Yes |
| Azure Synapse Analytics * | Yes |
| Azure Dedicated SQL-pool (voorheen SQL DW)* | Yes |
* Azure Purview biedt momenteel geen ondersteuning voor query's of opgeslagen procedures voor gegevenseedage of scannen. Gegevensbron is beperkt tot tabel- en weergavebronnen.
Beperkingen voor gegevensstroomlijn
Op dit moment kan de gegevensstroomlijn niet worden geïntegreerd met De resourceset Purview.
Ondersteuning voor SSIS-pakket uitvoeren
Raadpleeg ondersteunde gegevensopslag.
Toegang tot beveiligd Azure Purview-account
Als uw Purview-account is beveiligd door een firewall, leert u hoe u toegang Data Factory krijgen tot een beveiligd Purview-account via privé-eindpunten van Purview.
Regel Data Factory in Purview
Voor een end-to-end overzicht volgt u de Zelfstudie: Gegevens van Data Factory gegevens naar Azure Purview pushen.
Ondersteunde lijnpatronen
Er zijn verschillende soorten gegevens die door Azure Purview worden ondersteund. De gegenereerde herkomstgegevens zijn gebaseerd op het type bron en sink dat wordt gebruikt in de Data Factory activiteiten. Hoewel Data Factory meer dan 80 bron- en sinks ondersteunt, ondersteunt Azure Purview alleen een subset, zoals vermeld in Ondersteunde Azure Data Factory activiteiten.
Zie Aan de Data Factory voor het configureren van gegevens voor het verzenden van gegevens van gegevens voor gegevens van gegevens over gegevens van gegevens in de gegevensverwerking.
Enkele andere manieren om informatie in de gegevensweergave te vinden, zijn onder andere:
- Wijs op het tabblad Gegevensgegevens vormen aan om een voorbeeld van aanvullende informatie over de asset in de knopinfo te bekijken.
- Selecteer het knooppunt of de rand om het assettype te zien waar het bij hoort of om van assets te wisselen.
- Kolommen van een gegevensset worden weergegeven aan de linkerkant van het tabblad Gegevens. Zie Gegevenssetkolomlijn voor meer informatie over de gegevensvereeding op kolomniveau.
Gegevensrage voor 1:1-bewerkingen
Het meest voorkomende patroon voor het vastleggen van gegevensrage is het verplaatsen van gegevens van één invoergegevensset naar één uitvoergegevensset, met een proces ertussenin.
Een voorbeeld van dit patroon is het volgende:
- 1 bron/invoer: Klant (SQL Tabel)
- 1 sink/uitvoer: Customer1.csv (Azure Blob)
- 1 proces: CopyCustomerInfo1 #Customer1.csv (Data Factory Copy-activiteit)
Gegevens movement with 1:1 lineage and wildcard support (Gegevens verplaatsen met 1:1-ondersteuning voor gegevens en jokertekens)
Een ander veelvoorkomende scenario voor het vastleggen van gegevens over gegevenssets is het gebruik van een jokerteken om bestanden van één invoerset naar één uitvoerset te kopiëren. Met het jokerteken kan de kopieeractiviteit overeenkomen met meerdere bestanden voor het kopiëren met behulp van een gemeenschappelijk gedeelte van de bestandsnaam. Azure Purview legt de gegevensvereeding op bestandsniveau vast voor elk afzonderlijk bestand dat is gekopieerd door de bijbehorende kopieeractiviteit.
Een voorbeeld van dit patroon is het volgende:
- Bron/invoer: CustomerCall *.csv (ADLS Gen2 pad)
- Sink/uitvoer: CustomerCall *.csv (Azure Blob-bestand)
- 1 proces: CopyGen2ToBlob #CustomerCall.csv (Data Factory Copy-activiteit)
Gegevens movement with n:1 lineage (Gegevens verplaatsen met n:1-gegevenseedage)
U kunt Data Flow om gegevensbewerkingen uit te voeren, zoals samenvoegen, samenvoegen, en meer. Er kan meer dan één bronset worden gebruikt om een doelset te produceren. In dit voorbeeld legt Azure Purview de gegevenslijn op bestandsniveau vast voor afzonderlijke invoerbestanden voor een SQL-tabel die deel uitmaakt van een data Flow activiteit.
Een voorbeeld van dit patroon is het volgende:
- 2 bronnen/invoer: Customer.csv, Sales.parquet (ADLS Gen2 Pad)
- 1 sink/uitvoer: Bedrijfsgegevens (Azure SQL tabel)
- 1 proces: DataFlowBlobsToSQL (Data Factory Data Flow activiteit)
Regel voor resourcesets
Een resourceset is een logisch object in de catalogus dat veel partitiebestanden in de onderliggende opslag vertegenwoordigt. Zie Understanding Resource sets (Resourcesets begrijpen) voor meer informatie. Wanneer Azure Purview gegevens van de Azure Data Factory, worden de regels toegepast om de afzonderlijke partitiebestanden te normaliseren en één logisch object te maken.
In het volgende voorbeeld wordt een Azure Data Lake Gen2-resourceset gemaakt van een Azure Blob:
- 1 bron/invoer: Employee _management.csv (Azure Blob)
- 1 sink/uitvoer: Employee _management.csv (Azure Data Lake Gen 2)
- 1 proces: CopyBlobToAdlsGen2 _ RS (Data Factory Copy-activiteit)
Volgende stappen
Zelfstudie: gegevens Data Factory gegevens van gegevens naar Azure Purview pushen