Quickstart: Gegevens transformeren met toewijzingsgegevensstromen

In deze quickstart gebruikt u Azure Synapse Analytics om een pijplijn te maken waarmee gegevens van een adls Gen2-bron (Azure Data Lake Storage Gen2) worden getransformeerd naar een ADLS Gen2-sink met behulp van toewijzingsgegevensstroom. Het configuratiepatroon in deze quickstart kan worden uitgebreid bij het transformeren van gegevens met behulp van toewijzingsgegevensstroom

In deze quickstart voert u de volgende stappen uit:

  • Maak een pijplijn met een Gegevensstroom-activiteit in Azure Synapse Analytics.
  • Bouw een toewijzingsgegevensstroom met vier transformaties.
  • De uitvoering van de pijplijn testen.
  • Een Gegevensstroom-activiteit bewaken

Vereisten

  • Azure-abonnement: Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.

  • Azure Synapse werkruimte: Maak een Synapse-werkruimte met behulp van de Azure Portal de instructies in Quickstart: Een Synapse-werkruimte maken.

  • Azure-opslagaccount: u gebruikt ADLS-opslag als bron - en sinkgegevensarchieven . Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.

    Het bestand dat we in deze zelfstudie transformeren, is MoviesDB.csv, die hier te vinden is. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om lokaal op te slaan als een .csv-bestand. Als u het bestand wilt uploaden naar uw opslagaccount, raadpleegt u Upload blobs met de Azure Portal. De voorbeelden verwijzen naar een container met de naam 'sample-data'.

Wanneer uw Azure Synapse-werkruimte is gemaakt, kunt u Synapse Studio op twee manieren openen:

  • Open de Synapse-werkruimte in de Azure-portal. Selecteer Openen op de kaart 'Open Synapse Studio' onder 'Aan de slag'.
  • Open Azure Synapse Analytics en meld u aan bij uw werkruimte.

In deze quickstart wordt de werkruimte met de naam 'adftest2020' als voorbeeld gebruikt. Er wordt automatisch naar de startpagina van Synapse Studio genavigeerd.

Synapse Studio home page

Een pijplijn maken met een Gegevensstroom-activiteit

Een pijplijn bevat de logische stroom voor het uitvoeren van een reeks activiteiten. In deze sectie maakt u een pijplijn die een Gegevensstroom activiteit bevat.

  1. Ga naar het tabblad Integreren. Klik op het pluspictogram naast de kop Pijplijnen en selecteer Pijplijn.

    Create a new pipeline

  2. Voer op de pagina Eigenschappen-instellingen van de pijplijn TransformMovies in voor Naam.

  3. Sleep onder Verplaatsen en transformeren in het deelvenster Activiteitende gegevensstroom naar het pijplijncanvas.

  4. Selecteer in het pop-upvenster Gegevensstroom toevoegende optie Nieuwe gegevensstroom maken ->Gegevensstroom. Klik op OK wanneer u klaar bent.

    Create a data flow

  5. Geef uw gegevensstroom TransformMovies een naam op de pagina Eigenschappen .

Transformatielogica bouwen in het gegevensstroomcanvas

Zodra u uw Gegevensstroom hebt gemaakt, wordt u automatisch verzonden naar het gegevensstroomcanvas. In deze stap bouwt u een gegevensstroom die de MoviesDB.csv in ADLS-opslag gebruikt en de gemiddelde classificatie van komedies van 1910 tot 2000 samenvoegt. Vervolgens schrijft u dit bestand terug naar de ADLS-opslag.

  1. Schuif boven het gegevensstroomcanvas de schuifregelaar gegevensstroomopsporing aan. Met de foutopsporingsmodus kunt u interactieve transformatielogica testen op basis van een live Spark-cluster. Gegevensstroom clusters 5-7 minuten in beslag nemen en gebruikers worden aangeraden eerst foutopsporing in te schakelen als ze van plan zijn Gegevensstroom ontwikkeling uit te voeren. Zie de foutopsporingsmodus voor meer informatie.

    Slide the debug on

  2. Voeg in het gegevensstroomcanvas een bron toe door te klikken op het vak Bron toevoegen .

  3. Geef uw bron moviesDB een naam. Klik op Nieuw om een nieuwe brongegevensset te maken.

    Create a new source dataset

  4. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

    Choose Azure Data Lake Storage Gen2

  5. Kies DelimitedText. Klik op Doorgaan.

  6. Geef uw gegevensset MoviesDB een naam. Kies Nieuw in de vervolgkeuzelijst gekoppelde service.

  7. Geef in het scherm voor het maken van de gekoppelde service de ADLS Gen2-gekoppelde ADLS Gen2-service een naam en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze quickstart gebruiken we accountsleutel om verbinding te maken met ons opslagaccount. U kunt klikken op Verbinding testen om te controleren of uw referenties correct zijn ingevoerd. Klik op Maken als u klaar bent.

    Create a source linked service

  8. Zodra u terug bent op het scherm voor het maken van de gegevensset, voert u in het veld Bestandspad de locatie van het bestand in. In deze quickstart bevindt het bestand 'MoviesDB.csv' zich in de container 'sample-data'. Als het bestand kopteksten bevat, controleert u de eerste rij als koptekst. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Klik op OK wanneer u klaar bent.

    Source dataset settings

  9. Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en klikt u op Vernieuwen om een momentopname van de gegevens op te halen. U kunt een voorbeeld van gegevens gebruiken om te controleren of uw transformatie juist is geconfigureerd.

    Data preview

  10. Klik naast het bronknooppunt op het canvas van de gegevensstroom op het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u toevoegt, is een filter.

    Add a filter

  11. Geef uw filtertransformatie de naam FilterYears. Klik op het expressievak naast Filteren om de opbouwfunctie voor expressies te openen. Hier geeft u de filtervoorwaarde op.

  12. Met de opbouwfunctie voor expressies voor gegevensstromen kunt u interactief expressies bouwen voor gebruik in verschillende transformaties. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie Gegevensstroom opbouwfunctie voor expressies voor meer informatie over het bouwen van expressies.

    In deze quickstart wilt u films filteren van genrekomedie die tussen de jaren 1910 en 2000 uitkwam. Als jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de toInteger() functie. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) operatoren om te vergelijken met letterlijke jaarwaarden 1910 en 200-. Maak deze expressies samen met de && operator (en). De expressie wordt weergegeven als:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Als u wilt zoeken welke films komedies zijn, kunt u de rlike() functie gebruiken om patroon 'Komedie' te vinden in de kolomgenres. rlike De expressie samenvoegen met de jaarvergelijking om het volgende op te halen:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Specify filtering condition

    Als u een foutopsporingscluster actief hebt, kunt u uw logica controleren door op Vernieuwen te klikken om expressie-uitvoer weer te geven in vergelijking met de gebruikte invoer. Er is meer dan één juiste antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal van de gegevensstroom.

    Klik op Opslaan en Voltooien als u klaar bent met uw expressie.

  13. Haal een gegevensvoorbeeld op om te controleren of het filter correct werkt.

  14. De volgende transformatie die u toevoegt, is een statistische transformatie onder schemawijziging.

    Add an Aggregate

  15. Geef de statistische transformatie de naam AggregateComedyRatings. Selecteer op het tabblad Groeperen op jaar in de vervolgkeuzelijst om de aggregaties te groeperen op het jaar dat de film uitkwam.

    Aggregate settings 1

  16. Ga naar het tabblad Aggregaties . Geef in het linkertekstvak de statistische kolom AverageComedyRating een naam. Klik op het rechterexpressievak om de statistische expressie in te voeren via de opbouwfunctie voor expressies.

    Aggregate settings 2

  17. Gebruik de avg() statistische functie om het gemiddelde van kolomclassificatie op te halen. Aangezien Classificatie een tekenreeks is en avg() een numerieke invoer invoer bevat, moeten we de waarde converteren naar een getal via de toInteger() functie. Deze expressie ziet er als volgt uit:

    avg(toInteger(Rating))

    Klik op Opslaan en Voltooien wanneer u klaar bent.

    Average comedy rating

  18. Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn, jaar en AverageComedyRating.

    Aggregate Data Preview

  19. Vervolgens wilt u een Sink-transformatie toevoegen onder Doel.

    Add a Sink

  20. Geef uw sink een naam. Klik op Nieuw om uw sinkgegevensset te maken.

  21. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

  22. Kies DelimitedText. Klik op Doorgaan.

  23. Geef de sinkgegevensset De naam MoviesSink. Kies voor een gekoppelde service de gekoppelde ADLS Gen2-service die u in stap 7 hebt gemaakt. Voer een uitvoermap in waarnaar u uw gegevens wilt schrijven. In deze quickstart schrijven we naar map 'output' in container 'sample-data'. De map hoeft niet vooraf te bestaan en kan dynamisch worden gemaakt. Stel de eerste rij in als veldnamen als true en selecteer Geen voor importschema. Klik op OK wanneer u klaar bent.

    Sink dataset properties

Nu bent u klaar met het bouwen van uw gegevensstroom. U bent klaar om deze uit te voeren in uw pijplijn.

De Gegevensstroom uitvoeren en bewaken

U kunt fouten opsporen in een pijplijn voordat u deze publiceert. In deze stap gaat u een foutopsporingsuitvoering van de gegevensstroompijplijn activeren. Hoewel gegevensvoorbeeld geen gegevens schrijft, schrijft een foutopsporingsuitvoering gegevens naar uw sinkbestemming.

  1. Ga naar het pijplijncanvas. Klik op Fouten opsporen om een foutopsporingsuitvoering te activeren.

    Debug pipeline

  2. Pijplijnopsporing van Gegevensstroom-activiteiten maakt gebruik van het actieve foutopsporingscluster, maar duurt nog steeds ten minste een minuut om te initialiseren. U kunt de voortgang bijhouden via het tabblad Uitvoer . Zodra de uitvoering is voltooid, klikt u op het brilpictogram om het bewakingsvenster te openen.

    Debugging output

  3. In het deelvenster Bewaking ziet u het aantal rijen en de tijd die in elke transformatiestap is besteed.

    Transformation monitoring

  4. Klik op een transformatie om gedetailleerde informatie te krijgen over de kolommen en partitionering van de gegevens.

    Transformation details

Als u deze snelstart correct hebt gevolgd, moet u 83 rijen en twee kolommen in uw sinkmap hebben geschreven. U kunt de gegevens controleren door de blobopslag te controleren.

Volgende stappen

Ga naar de volgende artikelen voor meer informatie over Azure Synapse Analytics-ondersteuning: