Delen via


Hulpprogramma Voor het kopiëren van gegevens in Azure Data Factory en Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Het hulpprogramma Copy Data vereenvoudigt en optimaliseert het proces van het opnemen van gegevens in een data lake. Dit is meestal een eerste stap in een end-to-end gegevensintegratiescenario. Het bespaart tijd, met name wanneer u de service gebruikt om gegevens uit een gegevensbron voor het eerst op te nemen. Enkele voordelen van het gebruik van dit hulpprogramma zijn:

  • Wanneer u het hulpprogramma Copy Data gebruikt, hebt u geen inzicht in servicedefinities voor gekoppelde services, gegevenssets, pijplijnen, activiteiten en triggers.
  • De stroom van het hulpprogramma Copy Data is intuïtief voor het laden van gegevens in een data lake. Met het hulpprogramma worden automatisch alle benodigde resources gemaakt om gegevens uit het geselecteerde brongegevensarchief te kopiëren naar het geselecteerde doel-/sinkgegevensarchief.
  • Met het hulpprogramma Copy Data kunt u de gegevens valideren die worden opgenomen op het moment van ontwerpen, zodat u potentiële fouten aan het begin zelf kunt voorkomen.
  • Als u complexe bedrijfslogica moet implementeren om gegevens in een data lake te laden, kunt u de resources die zijn gemaakt met het hulpprogramma Gegevens kopiëren nog steeds bewerken met behulp van de creatie per activiteit in de gebruikersinterface.

De volgende tabel bevat richtlijnen voor het gebruik van het hulpprogramma Copy Data versus creatie per activiteit in de gebruikersinterface:

Hulpprogramma voor het kopiëren van gegevens Ontwerpen per activiteit (Copy-activiteit)
U wilt eenvoudig een taak voor het laden van gegevens bouwen zonder meer te weten te komen over entiteiten (gekoppelde services, gegevenssets, pijplijnen, enzovoort) U wilt complexe en flexibele logica implementeren voor het laden van gegevens in Lake.
U wilt snel een groot aantal gegevensartefacten in een data lake laden. U wilt Copy-activiteit koppelen aan volgende activiteiten voor het opschonen of verwerken van gegevens.

Als u het hulpprogramma Copy Data wilt starten, klikt u op de tegel Opnemen op de startpagina van de gebruikersinterface van Data Factory of Synapse Studio.

Nadat u het hulpprogramma voor het kopiëren van gegevens hebt gestart, ziet u twee typen taken: de ene is een ingebouwde kopieertaak en een andere taak voor het kopiëren van metagegevens. Met de ingebouwde kopieertaak kunt u binnen vijf minuten een pijplijn maken om gegevens te repliceren zonder dat u meer hoeft te weten te komen over entiteiten. De kopieertaak op basis van metagegevens om het maken van geparameteriseerde pijplijnen en externe besturingstabel te vereenvoudigen om grote hoeveelheden objecten (bijvoorbeeld duizenden tabellen) op schaal te kopiëren. Meer informatie vindt u in metagegevensgestuurde kopieergegevens.

Intuïtieve stroom voor het laden van gegevens in een data lake

Met dit hulpprogramma kunt u binnen enkele minuten eenvoudig gegevens van een groot aantal bronnen naar bestemmingen verplaatsen met een intuïtieve stroom:

  1. Configureer instellingen voor de bron.

  2. Configureer instellingen voor de bestemming.

  3. Configureer geavanceerde instellingen voor de kopieerbewerking, zoals kolomtoewijzing, prestatie-instellingen en fouttolerantie-instellingen.

  4. Geef een planning op voor de taak voor het laden van gegevens.

  5. Samenvatting van entiteiten bekijken die moeten worden gemaakt.

  6. Bewerk de pijplijn om de instellingen voor de kopieeractiviteit zo nodig bij te werken.

    Het hulpprogramma is ontworpen met big data in gedachten vanaf het begin, met ondersteuning voor diverse gegevens- en objecttypen. U kunt deze gebruiken om honderden mappen, bestanden of tabellen te verplaatsen. Het hulpprogramma ondersteunt ook het automatisch weergeven van gegevens, het vastleggen van schema's en het automatisch toewijzen van gegevens en het filteren van gegevens.

Copy Data tool

Voorbeeld van automatische gegevens

U kunt een voorbeeld bekijken van een deel van de gegevens uit het geselecteerde brongegevensarchief, waarmee u de gegevens kunt valideren die worden gekopieerd. Als de brongegevens zich in een tekstbestand bevinden, parseert het hulpprogramma Copy Data het tekstbestand om automatisch de rij- en kolomscheidingstekens en het schema te detecteren.

File settings

Nadat de detectie is uitgevoerd, selecteert u Voorbeeldgegevens:

Detected file settings and preview

Schema vastleggen en automatische toewijzing

Het schema van de gegevensbron is in veel gevallen mogelijk niet hetzelfde als het schema van de gegevensbestemming. In dit scenario moet u kolommen uit het bronschema toewijzen aan kolommen uit het doelschema.

Het hulpprogramma Copy Data bewaakt en leert uw gedrag wanneer u kolommen toewijst tussen bron- en doelarchieven. Nadat u een of een paar kolommen uit het brongegevensarchief hebt gekozen en deze hebt toegewezen aan het doelschema, begint het hulpprogramma Copy Data het patroon te analyseren voor kolomparen die u aan beide zijden hebt gekozen. Vervolgens wordt hetzelfde patroon toegepast op de rest van de kolommen. Daarom ziet u dat alle kolommen zijn toegewezen aan het doel op een manier die u wilt net na meerdere klikken. Als u niet tevreden bent met de keuze van de kolomtoewijzing die wordt geleverd door het hulpprogramma Copy Data, kunt u deze negeren en doorgaan met het handmatig toewijzen van de kolommen. Ondertussen leert en werkt het hulpprogramma Copy Data voortdurend het patroon bij en bereikt uiteindelijk het juiste patroon voor de kolomtoewijzing die u wilt bereiken.

Notitie

Bij het kopiëren van gegevens uit SQL Server of Azure SQL Database naar Azure Synapse Analytics, als de tabel niet in het doelarchief bestaat, ondersteunt het hulpprogramma Copy Data het automatisch maken van de tabel met behulp van het bronschema.

Gegevens filteren

U kunt brongegevens filteren om alleen de gegevens te selecteren die moeten worden gekopieerd naar het sinkgegevensarchief. Filteren vermindert het volume van de gegevens die moeten worden gekopieerd naar het sinkgegevensarchief en verbetert daarom de doorvoer van de kopieerbewerking. Het hulpprogramma Copy Data biedt een flexibele manier om gegevens in een relationele database te filteren met behulp van de SQL-querytaal of bestanden in een Azure-blobmap.

Gegevens in een database filteren

In de volgende schermopname ziet u een SQL-query om de gegevens te filteren.

Filter data in a database

Gegevens filteren in een Azure-blobmap

U kunt variabelen in het mappad gebruiken om gegevens uit een map te kopiëren. De ondersteunde variabelen zijn: {year}, {month}, {day}, {hour} en {minute}. Bijvoorbeeld: inputfolder/{year}/{month}/{day}.

Stel dat u invoermappen in de volgende indeling hebt:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Klik op de knop Bladeren voor bestand of map, blader naar een van deze mappen (bijvoorbeeld 2016-03-01-02>>>) en klik op Kiezen. U ziet 2016/03/01/02 in het tekstvak.

Vervang vervolgens 2016 door {year}, 03 door {month}, 01 door {day} en 02 door {hour}, en druk op de Tab-toets. Wanneer u incrementeel laden selecteert: gepartitioneerde map-/bestandsnamen in de sectie Gedrag voor bestand laden en u plannings- of tumblingvenster selecteert op de pagina Eigenschappen, ziet u vervolgkeuzelijsten om de indeling voor deze vier variabelen te selecteren:

Filter file or folder

Het hulpprogramma Copy Data genereert parameters met expressies, functies en systeemvariabelen die kunnen worden gebruikt om {year}, {month}, {day}, {hour} en {minute} te vertegenwoordigen bij het maken van een pijplijn.

Planningsopties

U kunt de kopieerbewerking één keer of volgens een schema uitvoeren (elk uur, dagelijks enzovoort). Deze opties kunnen worden gebruikt voor de connectors in verschillende omgevingen, waaronder on-premises, cloud en lokaal bureaublad.

Een eenmalige kopieerbewerking maakt het mogelijk om gegevens van een bron naar een bestemming slechts één keer te verplaatsen. Deze is van toepassing op gegevens van elke grootte en elke ondersteunde indeling. Met de geplande kopie kunt u gegevens kopiëren op een terugkeerpatroon dat u opgeeft. U kunt uitgebreide instellingen (zoals opnieuw proberen, time-out en waarschuwingen) gebruiken om de geplande kopie te configureren.

Scheduling options

Probeer deze zelfstudies die gebruikmaken van het hulpprogramma Copy Data: