Quickstart: Gegevens transformeren met behulp van toewijzingsgegevensstromen

In deze quickstart gebruikt u Azure Synapse Analytics om een pijplijn te maken die gegevens transformeert van een Azure Data Lake Storage Gen2-bron (ADLS Gen2) naar een ADLS Gen2-sink met behulp van een toewijzingsgegevensstroom. Het configuratiepatroon in deze quickstart kan worden uitgebreid bij het transformeren van gegevens met behulp van toewijzingsgegevensstroom

In deze snelstart gaat u de volgende stappen volgen:

  • Maak een pijplijn met een Data Flow-activiteit in Azure Synapse Analytics.
  • Bouw een toewijzingsgegevensstroom met vier transformaties.
  • De uitvoering van de pijplijn testen.
  • Een Data Flow bewaken

Vereisten

  • Azure-abonnement: Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.

  • Azure Synapse: maak een Synapse-werkruimte met behulp van de Azure Portal de instructies in Quickstart: Een Synapse-werkruimte maken.

  • Azure-opslagaccount: u gebruikt ADLS-opslag als bron- en sinkgegevensopslag. Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.

    Het bestand dat we in deze zelfstudie transformeren, is MoviesDB.csv, dat u hier kunt vinden. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om het lokaal op te slaan als .csv bestand. Als u het bestand wilt uploaden naar uw opslagaccount, Upload blobs met de Azure Portal. De voorbeelden verwijzen naar een container met de naam 'sample-data'.

Wanneer uw Azure Synapse-werkruimte is gemaakt, kunt u Synapse Studio op twee manieren openen:

  • Open de Synapse-werkruimte in de Azure-portal. Selecteer Openen op de kaart 'Open Synapse Studio' onder 'Aan de slag'.
  • Open Azure Synapse Analytics en meld u aan bij uw werkruimte.

In deze quickstart wordt de werkruimte met de naam 'adftest2020' als voorbeeld gebruikt. Er wordt automatisch naar de startpagina van Synapse Studio genavigeerd.

Startpagina van Synapse Studio

Een pijplijn maken met een Data Flow activiteit

Een pijplijn bevat de logische stroom voor het uitvoeren van een reeks activiteiten. In deze sectie maakt u een pijplijn die een Data Flow bevat.

  1. Ga naar het tabblad Integreren. Klik op het pluspictogram naast de kop Pijplijnen en selecteer Pijplijn.

    Een nieuwe pijplijn maken

  2. Voer op de pagina Eigenschappeninstellingen van de pijplijn TransformMovies in als Naam.

  3. Sleep gegevensstroom onder Verplaatsen en transformeren in het deelvenster Activiteiten naar het pijplijn-canvas.

  4. Selecteer in de pop-uppagina Gegevensstroom toevoegen de optie Nieuwe gegevensstroom maken -> Gegevensstroom. Klik op OK wanneer u klaar bent.

    Gegevensstroom maken

  5. Noem de gegevensstroom TransformMovies op de pagina Eigenschappen.

Transformatielogica bouwen in het gegevensstroom-canvas

Zodra u uw Data Flow, wordt u automatisch naar het gegevensstroomvas verzonden. In deze stap bouwt u een gegevensstroom die de MoviesDB.csv in ADLS-opslag gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 aggregeert. Vervolgens schrijft u dit bestand terug naar de ADLS-opslag.

  1. Schuif boven het canvas van de gegevensstroom de schuifregelaar Foutopsporing gegevensstroom aan. Met de foutopsporingsmodus kunt u transformatielogica interactief testen op een live Spark-cluster. Het Flow 5-7 minuten duren voordat gegevensclusters zijn opgewarmd en gebruikers wordt aangeraden om eerst foutopsporing in te schakelen als ze van plan zijn om Data Flow ontwikkelen. Zie Foutopsporingsmodus voor meer informatie.

    Schuif de foutopsporing aan

  2. Voeg in het canvas van de gegevensstroom een bron toe door te klikken op het vak Bron toevoegen.

  3. Noem uw bron MoviesDB. Klik op Nieuw om een nieuwe bronset te maken.

    Een nieuwe bronset maken

  4. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

    Azure Data Lake Storage Gen2 kiezen

  5. Kies DelimitedText. Klik op Doorgaan.

  6. Noem uw gegevensset MoviesDB. Kies Nieuw in de vervolgkeuzekeuze voor de gekoppelde service.

  7. Geef in het scherm voor het maken van de gekoppelde service ADLS Gen2 gekoppelde service ADLSGen2 op en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze quickstart gebruiken we Accountsleutel om verbinding te maken met ons opslagaccount. U kunt op Verbinding testen klikken om te controleren of uw referenties correct zijn ingevoerd. Klik op Maken als u klaar bent.

    Een gekoppelde bronservice maken

  8. Wanneer u terug bent in het scherm voor het maken van de gegevensset, voert u onder het veld Bestandspad in waar het bestand zich bevindt. In deze quickstart bevindt het bestand 'MoviesDB.csv' zich in de container 'sample-data'. Als het bestand headers bevat, controleert u Eerste rij als header. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Klik op OK wanneer u klaar bent.

    Instellingen voor de brongegevensset

  9. Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en klikt u op Vernieuwen om een momentopname van de gegevens op te halen. U kunt voorbeeld van gegevens gebruiken om te controleren of uw transformatie correct is geconfigureerd.

    Voorbeeld van gegevens

  10. Klik naast het bron-knooppunt op het gegevensstroomvas op het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u toevoegt, is filter.

    Een filter toevoegen

  11. Noem de filtertransformatie FilterYears. Klik op het expressievak naast Filteren op om de opbouwer van de expressie te openen. Hier geeft u de filtervoorwaarde op.

  12. Met de opbouwer van gegevensstroomexpressie kunt u interactief expressies bouwen voor gebruik in verschillende transformaties. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie Data Flow expression builder voor meer informatie over het bouwen van expressies.

    In deze snelstart wilt u films van genregenres filteren die tussen de jaren 1910 en 2000 uit zijn gekomen. Omdat jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de toInteger() functie . Gebruik de operators groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om te vergelijken met letterlijke jaarwaarden 1910 en 200-. Deze expressies samenbrengen met de && operator (en). De expressie komt als volgt uit:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Als u wilt weten welke films comedies zijn, kunt u de functie gebruiken om het patroon rlike() 'Ën' in de kolomkolom te zoeken. Maak de rlike expressie samen met de jaarvergelijking om het volgende te krijgen:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Filtervoorwaarde opgeven

    Als u een actief foutopsporingscluster hebt, kunt u uw logica controleren door te klikken op Vernieuwen om de expressie-uitvoer weer te geven in vergelijking met de gebruikte invoer. Er is meer dan één juist antwoord op hoe u deze logica kunt uitvoeren met behulp van de taal van de gegevensstroomexpressie.

    Klik op Opslaan en voltooien wanneer u klaar bent met uw expressie.

  13. Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.

  14. De volgende transformatie die u toevoegt, is een Aggregatietransformatie onder Schema-modifier.

    Een aggregatie toevoegen

  15. Noem de aggregatietransformatie AggregateComedyRatings. Selecteer op het tabblad Groeperen op de optie Jaar in de vervolgkeuze lijst om de aggregaties te groeperen op het jaar dat de film uit is gekomen.

    Aggregatie-instellingen 1

  16. Ga naar het tabblad Aggregates. Noem in het linkertekstvak de aggregatiekolom AverageComedyRating. Klik op het vak met de rechterexpressie om de samengetagde expressie in te voeren via de opbouwer van de expressie.

    Aggregatie-instellingen 2

  17. Gebruik de statistische functie om het gemiddelde van kolom Waardering op te avg() halen. Omdat Waardering een tekenreeks is en numerieke invoer op zich neemt, moeten we de waarde converteren avg() naar een getal via de functie toInteger() . Deze expressie ziet er als volgende uit:

    avg(toInteger(Rating))

    Klik op Opslaan en voltooien wanneer u klaar bent.

    Gemiddelde waardering voor de waardering van de waardering voor de rating

  18. Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn: year en AverageComedyRating.

    Preview van cumulatief gegevens

  19. Vervolgens wilt u een Sink-transformatie toevoegen onder Destination.

    Een sink toevoegen

  20. Noem uw sink Sink. Klik op Nieuw om uw sink-gegevensset te maken.

  21. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

  22. Kies DelimitedText. Klik op Doorgaan.

  23. Noem uw sink-gegevensset MoviesSink. Kies voor gekoppelde service de ADLS Gen2 service die u in stap 7 hebt gemaakt. Voer een uitvoermap in om uw gegevens naar te schrijven. In deze quickstart schrijven we naar de map 'output' in container 'sample-data'. De map hoeft niet vooraf te bestaan en kan dynamisch worden gemaakt. Stel Eerste rij in als header als true en selecteer Geen bij Schema importeren. Klik op OK wanneer u klaar bent.

    Eigenschappen van sink-gegevensset

U bent nu klaar met het bouwen van uw gegevensstroom. U bent klaar om deze in uw pijplijn uit te voeren.

De data-Flow

U kunt fouten opsporen in een pijplijn voordat u deze publiceert. In deze stap activeert u een foutopsporingsrun van de gegevensstroompijplijn. Hoewel met de gegevenspreview geen gegevens worden geschreven, worden bij een foutopsporingsrun gegevens naar uw sinkbestemming geschreven.

  1. Ga naar het pijplijn-canvas. Klik op Fouten opsporen om een foutopsporingsrun te activeren.

    Foutopsporingspijplijn

  2. Pijplijnbuggen van Data Flow maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog steeds minstens een minuut om te initialiseren. U kunt de voortgang volgen via het tabblad Uitvoer. Zodra de run is geslaagd, klikt u op het pictogram van een bril om het bewakingsvenster te openen.

    Uitvoer van debuggen

  3. In het deelvenster Bewaking ziet u het aantal rijen en de tijd die in elke transformatiestap is besteed.

    Transformatiebewaking

  4. Klik op een transformatie voor gedetailleerde informatie over de kolommen en partitionering van de gegevens.

    Transformatiedetails

Als u deze quickstart correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven. U kunt de gegevens controleren door uw blobopslag te controleren.

Volgende stappen

Lees de volgende artikelen voor meer informatie over Azure Synapse Analytics ondersteuning: