Quickstart: Een gegevensfactory maken met de Azure Data Factory-UI

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

In deze quickstart wordt beschreven hoe u de Azure Data Factory-UI kunt gebruiken om een Azure-gegevensfactory te maken en te controleren. Met de pijplijn die u in deze data factory maakt, worden gegevens gekopieerd van één map naar een andere map in een Azure Blob-opslag. Zie Toewijzingsgegevensstroom Azure Data Factory gegevens transformeren met behulp van een Azure Data Factory.

Notitie

Als u niet bekend bent met Azure Data Factory, raadpleegt u eerst de Inleiding voor Azure Data Factory voordat u deze quickstart uitvoert.

Vereisten

Azure-abonnement

Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.

Azure-rollen

Als u Data Factory-exemplaren wilt maken, moet het gebruikersaccount waarmee u zich bij Azure aanmeldt, lid zijn van de rol Inzender of Eigenaar, of moet dit een beheerder van het Azure-abonnement zijn. Als u de machtigingen wilt bekijken die u binnen het abonnement hebt, gaat u naar Azure Portal, selecteert u uw gebruikersnaam rechtsboven in de hoek, selecteert u het pictogram " ... " voor meer opties en selecteert u Mijn machtigingen. Als u toegang tot meerdere abonnementen hebt, moet u het juiste abonnement selecteren.

Als u onderliggende resources wilt maken en beheren voor Data Factory, waaronder gegevenssets, gekoppelde services, pijplijnen, triggers en integratieruntimes, zijn de volgende vereisten van toepassing:

  • Als u onderliggende resources in Azure Portal wilt maken en beheren, moet u de rol Data Factory-inzender op minimaal het niveau van de resourcegroep hebben.
  • Voor het maken en beheren van onderliggende resources met PowerShell of de SDK is de rol Inzender op minimaal het resourceniveau voldoende.

Zie het artikel Rollen toevoegen voor voorbeelden van instructies voor het toevoegen van een gebruiker aan een rol.

Raadpleeg voor meer informatie de volgende artikelen:

Azure Storage-account

In deze Snelstart gaat u een algemeen Azure Storage-account (en dan met name voor Blob Storage) gebruiken als zowel bron- als doel gegevensarchieven. Raadpleeg het artikel Een opslagaccount maken als u geen Azure Storage-account hebt voor algemene doeleinden en er een wilt maken.

De naam van het opslagaccount ophalen

In deze quickstart hebt u de naam van uw Azure Storage-account nodig. De volgende procedure bevat stappen waarmee u de naam van uw opslagaccount kunt ophalen:

  1. Ga in een webbrowser naar de Azure Portal en meld u aan met uw Azure-gebruikersnaam en-wachtwoord.
  2. Selecteer in het menu Azure Portal Alle services en selecteer Storage > Storage-accounts. U kunt vanaf elke pagina ook Storage-accounts zoeken en selecteren.
  3. Filter op de pagina Storage-accounts op uw opslagaccount (indien nodig) en selecteer vervolgens uw opslagaccount.

U kunt vanaf elke pagina ook Storage-accounts zoeken en selecteren.

Een blobcontainer maken

In deze sectie maakt u in Azure Blob Storage een blobcontainer met de naam adftutorial.

  1. Selecteer op de pagina Storage-account Overzicht > Containers.

  2. Selecteer in de werkbalk van de pagina <Account name> - Containers Container.

  3. Voer in het dialoogvenster Nieuwe container als naam adftutorial in en selecteer OK. De pagina <Account name> - Containers is bijgewerkt en bevat adftutorial in de lijst containers.

    Lijst met containers

Voeg een invoermap en -bestand toe aan de blobcontainer

In dit gedeelte maakt u een map met de naam invoer in de container die u hebt gemaakt en vervolgens uploadt u een voorbeeldbestand naar de invoermap. Voor u begint, opent u een tekstverwerker zoals Kladblok en maakt u een bestand met de naam emp.txt met de volgende inhoud:

John, Doe
Jane, Doe

Sla het bestand op in de map c:\ADFv2QuickStartPSH. (Maak de map als deze nog niet bestaat.) Ga terug naar de Azure-portal en voer de volgende stappen uit:

  1. Selecteer op de pagina <Account name> - Containers waar u begon adftutorial uit de bijgewerkte lijst containers.

    1. Als u het venster hebt gesloten of naar een andere pagina bent gegaan, meldt u zich weer aan bij de Azure Portal.
    2. Selecteer in het menu Azure Portal Alle services en selecteer Storage > Storage-accounts. U kunt vanaf elke pagina ook Storage-accounts zoeken en selecteren.
    3. Selecteer uw opslagaccount en selecteer vervolgens Containers > adftutorial.
  2. Selecteer in de werkbalk van de containerpagina adftutorial Uploaden.

  3. Selecteer op de pagina Blob uploaden het venster Bestanden en blader vervolgens naar en selecteer het bestand emp.txt.

  4. Vouw de kop Geavanceerd uit. De pagina wordt nu als volgt weergegeven:

    De koppeling Geavanceerd selecteren

  5. In het vak Uploaden naar map voert u invoer in.

  6. Selecteer de knop Uploaden. Als het goed is, ziet u in de lijst nu het bestand emp.txt, evenals de uploadstatus hiervan.

  7. Selecteer het pictogram Sluiten (X) om de pagina Blob uploaden te sluiten.

Houdt de containerpagina adftutorial open. U gaat hiermee aan het einde van deze QuickStart de uitvoer controleren.

Video

Bekijk deze video voor een beter begrip van de Data Factory-UI:

Een gegevensfactory maken

  1. Start de webbrowser Microsoft Edge of Google Chrome. Op dit moment wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.

  2. Ga naar de Azure Portal.

  3. Selecteer Een resource maken in het menu van de Azure-portal.

  4. Selecteer Integratie en selecteer vervolgens Data Factory.

    Data Factory selectie in het deelvenster Nieuw.

  5. Selecteer op de pagina Data factory maken op het tabblad Basisbeginselen het Azure-abonnement waarin u de data factory wilt maken.

  6. Voer een van de volgende stappen uit voor Resourcegroep:

    a. Selecteer een bestaande resourcegroep in de vervolgkeuzelijst.

    b. Selecteer Nieuwe maken en voer de naam van een nieuwe resourcegroep in.

    Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.

  7. Selecteer bij Regio de locatie voor de data factory.

    De lijst bevat alleen locaties die worden ondersteund door Data Factory en waar uw Azure Data Factory-metagegevens worden opgeslagen. De bijbehorende gegevensarchieven (zoals Azure Storage en Azure SQL Database) en berekeningen (zoals Azure HDInsight) die Data Factory gebruikt, kunnen in andere regio's worden uitgevoerd.

  8. Voer ADFTutorialDataFactory in bij Naam. De naam van de Azure-gegevensfactory moet wereldwijd uniek zijn. Als u het volgende foutbericht ziet, wijzigt u de naam van de data factory (bijvoorbeeld <uwnaam>ADFTutorialDataFactory) en probeert u het opnieuw. Zie het artikel Data factory - Naamgevingsregels voor naamgevingsregels voor Data Factory-artefacten.

    Nieuw data factory foutbericht voor dubbele naam.

  9. Selecteer V2 als Versie.

  10. Selecteer Volgende: Git-configuratie, en selecteer vervolgens het selectievakje Git later configureren.

  11. Selecteer Controleren en maken, en selecteer Maken nadat de validatie is voltooid. Nadat het maken is voltooid, selecteert u Ga naar resource om naar de pagina Data Factory te gaan.

  12. Selecteer Openen op de tegel Azure Data Factory Studio openen om de Azure Data Factory ui-toepassing te starten op een afzonderlijk browsertabblad.

    Startpagina voor de Azure Data Factory, met de tegel Azure Data Factory Studio openen.

    Notitie

    Als u ziet dat de webbrowser vastloopt bij Autoriseren, schakelt u het selectievakje Cookies van derden en sitegegevens blokkeren uit. U kunt het selectievakje ook ingeschakeld laten, een uitzondering maken voor login.microsoftonline.com en de app opnieuw openen.

Een gekoppelde service maken

In deze procedure maakt u een gekoppelde service om uw Azure Storage-account te koppelen aan de data factory. De gekoppelde service beschikt over de verbindingsgegevens die de Data Factory-service tijdens runtime gebruikt om er een verbinding mee tot stand te brengen.

  1. Open op de pagina van de Azure Data Factory-UI het tabblad Beheren in het linkerdeelvenster.

  2. Selecteer op de pagina Gekoppelde services +Nieuw om een nieuwe gekoppelde service te maken.

    Nieuwe gekoppelde service.

  3. Selecteer op de pagina Nieuwe gekoppelde service de optie Azure Blob-opslag en selecteer vervolgens Doorgaan.

  4. Voer de volgende stappen uit op de pagina Nieuwe gekoppelde service (Azure Blob Storage):

    a. Voer bij Naam AzureStorageLinkedService in.

    b. Selecteer bij Naam van opslagaccount uw Azure-opslagaccount.

    c. Selecteer Verbinding testen om te bevestigen dat de Data Factory-service verbinding mag maken met het opslagaccount.

    d. Selecteer Maken om de gekoppelde service op te slaan.

    Gekoppelde service.

Gegevenssets maken

In deze procedure maakt u twee gegevenssets: InputDataset en OutputDataset. Deze gegevenssets zijn van het type AzureBlob. Ze verwijzen naar de gekoppelde Azure Storage-service die u in de vorige sectie hebt gemaakt.

De invoergegevensset vertegenwoordigt de brongegevens in de invoermap. In de definitie van de invoergegevensset geeft u de blob-container (adftutorial) en de map (invoer) op, en het bestand (emp.txt) dat de brongegevens bevat.

De uitvoergegevensset vertegenwoordigt de gegevens die worden gekopieerd naar de bestemming. In de definitie van de uitvoergegevensset geeft u de blob-container (adftutorial) en de map (uitvoer) op, en het bestand waarin de brongegevens zijn gekopieerd. Elke uitvoering van een pijplijn heeft een unieke id die eraan is gekoppeld. U hebt toegang tot deze id via de systeemvariabele RunId. De naam van het uitvoerbestand wordt dynamisch geëvalueerd op basis van de run-id van de pijplijn.

In de instellingen voor de gekoppelde service hebt u het Azure Storage-account opgegeven dat de brongegevens bevat. In de instellingen voor de brongegevensset geeft u de precieze locatie van de brongegevens op (blob-container, map en bestand). In de instellingen voor de sink-gegevensset geeft u de locatie op waarnaar de gegevens worden gekopieerd (blob-container, map en bestand).

  1. Selecteer het tabblad Maken in het linkerdeelvenster.

  2. Selecteer de knop + (plus) en vervolgens Gegevensset.

    Menu voor het maken van een gegevensset.

  3. Selecteer op de pagina Nieuwe gegevensset de optie Azure Blob-opslag en selecteer Doorgaan.

  4. Selecteer op de pagina Indeling selecteren het indelingstype van uw gegevens en selecteer Doorgaan. Selecteer in dit geval Binair wanneer u bestanden ongewijzigd kopieert zonder de inhoud te parseren.

    Selecteer indeling.

  5. Voer de volgende stappen uit op de pagina Eigenschappen instellen:

    a. Voer InputDataset in onder Naam.

    b. Selecteer AzureStorageLinkedService bij Linked service.

    c. Selecteer de knop Bladeren bij Bestandspad.

    d. Ga in het venster Een bestand of map kiezen naar de map invoer in de container adftutorial, selecteer het bestand emp.txt en selecteer vervolgens OK.

    e. Selecteer OK.

    Stel eigenschappen in voor InputDataset.

  6. Herhaal de stappen om de uitvoergegevensset te maken:

    a. Selecteer de knop + (plus) en vervolgens Gegevensset.

    b. Selecteer op de pagina Nieuwe gegevensset de optie Azure Blob-opslag en selecteer Doorgaan.

    c. Selecteer op de pagina Indeling selecteren het indelingstype van uw gegevens en selecteer Doorgaan.

    d. Geef op de pagina Eigenschappen instellen de naam OutputDataset op. Selecteer AzureStorageLinkedService als gekoppelde service.

    e. Voer adftutorial/output in onder Bestandspad. Als de map output niet bestaat, wordt deze in runtime gemaakt door de kopieeractiviteit.

    f. Selecteer OK.

    Stel eigenschappen in voor OutputDataset.

Een pijplijn maken

In deze procedure maakt en valideert u een pijplijn via een kopieeractiviteit die gebruikmaakt van de invoer- en uitvoergegevenssets. Met de kopieeractiviteit worden gegevens uit het bestand dat is opgegeven bij de instellingen voor de invoergegevensset gekopieerd naar het bestand dat is opgegeven in de instellingen voor de uitvoergegevensset. Als in de invoergegevensset alleen een map is opgegeven (en geen bestandsnaam), worden met de kopieeractiviteit alle bestanden in de bronmap gekopieerd naar de bestemming.

  1. Selecteer de knop + (plus) en selecteer vervolgens Pijplijn.

  2. Geef bij Eigenschappen op het tabblad Algemeen CopyPipeline op als Naam. Vouw vervolgens het deelvenster samen door in de rechterbovenhoek op het pictogram Eigenschappen te klikken.

  3. Open de werkset Activiteiten en vouw Verplaatsen en transformeren uit. Sleep de activiteit Gegevens kopiëren vanuit de werkset Activiteiten naar het ontwerpoppervlak voor pijplijnen. U kunt ook zoeken naar activiteiten in de werkset Activiteiten. Geef CopyFromBlobToBlob op bij Naam.

    Een kopieeractiviteit maken.

  4. Ga naar het tabblad Bron in de instellingen voor de kopieeractiviteit en selecteer InputDataset als de brongegevensset.

  5. Ga naar het tabblad Sink in de instellingen voor de kopieeractiviteit en selecteer OutputDataset bij Sink-gegevensset.

  6. Klik in de pijplijnwerkbalk boven het canvas op Valideren om de instellingen voor de pijplijn te valideren. Controleer of de pijplijn is gevalideerd. Als u de validatie-uitvoer wilt sluiten, selecteert u in de rechterbovenhoek de knop Valideren.

    Valideer een pijplijn.

Fouten opsporen in de pijplijn

In deze stap spoort u fouten op in de pijplijn voordat u deze implementeert in Data Factory.

  1. Klik in de pijplijnwerkbalk boven het canvas op Fouten opsporen om een testuitvoering te activeren.

  2. Controleer of de status van de pijplijnuitvoering onder aan het tabblad Uitvoer van de pijplijninstellingen wordt weergegeven.

    Uitvoer van pijplijnuitvoering

  3. Controleer of een uitvoerbestand wordt weergegeven in de uitvoermap van de container adftutorial. Als de uitvoermap niet bestaat, wordt deze automatisch gemaakt in de Data Factory-service.

De pijplijn handmatig activeren

In deze procedure implementeert u entiteiten (gekoppelde services, gegevenssets, pijplijnen) in Azure Data Factory. Vervolgens activeert u handmatig een pijplijnuitvoering.

  1. Voordat u een pijplijn activeert, moet u eerst entiteiten publiceren in Data Factory. Als u wilt publiceren, selecteert u bovenaan de optie Alles publiceren.

    Alles publiceren.

  2. Als u de pijplijn handmatig wilt activeren, selecteert u de optie Trigger toevoegen op de pijplijnwerkbalk en selecteert u Nu activeren. Selecteer OK op de pagina Pijplijnuitvoering.

De pijplijn bewaken

  1. Ga naar het tabblad Controleren aan de linkerkant. Gebruik de knop Vernieuwen om de lijst te vernieuwen.

    Tabblad voor het bewaken van pijplijnuitvoeringen

  2. Selecteer de koppeling CopyPipeline. Op deze pagina ziet u de status van de uitvoering van de kopieeractiviteit.

  3. Selecteer de koppeling Details (afbeelding van een bril) om details van de kopieerbewerking weer te geven. Zie Overzicht van kopieeractiviteit voor meer informatie over de eigenschappen.

    Kopieerbewerkingsdetails.

  4. Controleer of een nieuw bestand wordt weergegeven in de uitvoermap.

  5. Als u vanuit de weergave Uitvoeringen van activiteit wilt terugkeren naar de weergave Pijplijnuitvoeringen, selecteert u de koppeling Alle pijplijnuitvoeringen.

De pijplijn activeren volgens een schema

Deze procedure is optioneel in deze zelfstudie. U kunt een Scheduler-trigger maken om in te plannen dat de pijplijn periodiek wordt uitgevoerd (elk uur, dagelijks, enzovoort). In deze procedure maakt u een trigger die elke minuut wordt uitgevoerd en stopt op een door u bepaald tijdstip.

  1. Schakel over naar het tabblad Auteur.

  2. Ga naar uw pijplijn, selecteer Trigger toevoegen op de pijplijnwerkbalk en selecteer Nieuw/bewerken.

  3. Selecteer op de pagina Triggers toevoegen de optie Trigger kiezen en selecteer vervolgens Nieuw.

  4. Selecteer op de pagina Nieuwe trigger onder Beëindigen, de optie Op datum en geef een eindtijd op die een paar minuten later is dan de huidige tijd. Selecteer ten slotte OK.

    Aan elke pijplijnuitvoering zijn kosten verbonden. Geef daarom een eindtijd op die slechts enkele minuten later is dan de begintijd. Zorg ervoor dat de eindtijd op dezelfde dag is. Zorg er echter wel voor dat er voldoende tijd is om de pijplijn uit te voeren tussen de publicatietijd en de eindtijd. De trigger gaat pas van kracht nadat u de oplossing hebt gepubliceerd in Data Factory, niet wanneer u de trigger opslaat in de UI.

  5. Schakel op de pagina Nieuwe trigger het selectievakje Geactiveerd in en selecteer OK.

    Nieuwe triggerinstelling.

  6. Lees het waarschuwingsbericht en selecteer OK.

  7. Selecteer Alles publiceren om wijzigingen te publiceren naar Data Factory.

  8. Ga naar het tabblad Controleren aan de linkerkant. Selecteer Vernieuwen om de lijst te vernieuwen. U ziet dat de pijplijn één keer per minuut wordt uitgevoerd vanaf het moment van publiceren tot de eindtijd.

    Bekijk de waarden in de kolom GEACTIVEERD DOOR. De handmatige triggeruitvoering is afkomstig uit de stap (Nu activeren) die u eerder hebt uitgevoerd.

  9. Schakel over naar de weergave Triggeruitvoeringen.

  10. Controleer of er tot de opgegeven datum en tijd voor elke pijplijnuitvoering een uitvoerbestand is gemaakt in de uitvoermap.

Volgende stappen

Met de pijplijn in dit voorbeeld worden gegevens gekopieerd van de ene locatie naar een andere locatie in Azure Blob Storage. Doorloop de zelfstudies voor meer informatie over het gebruiken van Data Factory in andere scenario's.