Gegevens analyseren met toegewezen SQL-pools

In deze zelfstudie gebruikt u de voorbeeldgegevens van NYC Taxi om de mogelijkheden van een toegewezen SQL-pool te verkennen.

Een toegewezen SQL-pool maken

  1. Selecteer Synapse Studio in het linkerdeelvenster de optie SQL > beheren onder Analytics-pools.
  2. Selecteer Nieuw
  3. Bij Naam toegewezen SQL-pool selecteert u SQLPOOL1
  4. Kies DW100C voor Prestatieniveau
  5. Selecteer Beoordelen en maken > Maken. Uw toegewezen SQL-pool is binnen een paar minuten klaar.

Uw toegewezen SQL is gekoppeld aan een SQL database die ook SQLPOOL1 wordt genoemd.

  1. Navigeer naar > Gegevenswerkruimte.
  2. Als het goed is, ziet u een database met de naam SQLPOOL1. Als u deze niet ziet, klikt u op Vernieuwen.

Een toegewezen SQL-pool verbruikt factureerbare resources zolang deze worden uitgevoerd. U kunt de pool later onderbreken om de kosten te verlagen.

Notitie

Bij het maken van een nieuwe toegewezen SQL-pool (voorheen SQL DW) in uw werkruimte, wordt de pagina voor het inrichten van de toegewezen SQL-pool geopend. Het inrichten vindt plaats op de logische SQL-server.

Laad de NYC Taxi-gegevens in SQLPOOL1

  1. Navigeer Synapse Studio naar de hub Ontwikkelen, klik op de knop om een nieuwe resource toe te voegen en maak vervolgens een + nieuw SQL script.

  2. Selecteer de pool SQLPOOL1 (pool die is gemaakt in STAP 1 van deze zelfstudie) in Verbinding maken vervolgkeuzelijst boven het script.

  3. Voer de volgende code in:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
         [DateID] int,
         [MedallionID] int,
         [HackneyLicenseID] int,
         [PickupTimeID] int,
         [DropoffTimeID] int,
         [PickupGeographyID] int,
         [DropoffGeographyID] int,
         [PickupLatitude] float,
         [PickupLongitude] float,
         [PickupLatLong] nvarchar(4000),
         [DropoffLatitude] float,
         [DropoffLongitude] float,
         [DropoffLatLong] nvarchar(4000),
         [PassengerCount] int,
         [TripDurationSeconds] int,
         [TripDistanceMiles] float,
         [PaymentType] nvarchar(4000),
         [FareAmount] numeric(19,4),
         [SurchargeAmount] numeric(19,4),
         [TaxAmount] numeric(19,4),
         [TipAmount] numeric(19,4),
         [TollsAmount] numeric(19,4),
         [TotalAmount] numeric(19,4)
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (DateID 1, MedallionID 2, HackneyLicenseID 3, PickupTimeID 4, DropoffTimeID 5,
    PickupGeographyID 6, DropoffGeographyID 7, PickupLatitude 8, PickupLongitude 9, 
    PickupLatLong 10, DropoffLatitude 11, DropoffLongitude 12, DropoffLatLong 13, 
    PassengerCount 14, TripDurationSeconds 15, TripDistanceMiles 16, PaymentType 17, 
    FareAmount 18, SurchargeAmount 19, TaxAmount 20, TipAmount 21, TollsAmount 22, 
    TotalAmount 23)
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Klik op de knop Uitvoeren om het script uit te voeren.

  5. Dit script is binnen 60 seconden klaar. Er worden 2 miljoen rijen met NYC Taxi-gegevens in een tabel met de naam dbo.NYCTaxiTripSmall geladen.

De NYC-taxigegevens in de toegewezen SQL-pool verkennen

  1. Ga in Synapse Studio naar de hub Gegevens.

  2. Ga naar SQLPOOL1 > Tabellen.

  3. Klik met de rechtermuisknop op de dbo. NycTaxiTripSmall-tabel en selecteer Nieuw SQL Script Selecteer TOP > 100 rijen.

  4. Wacht tot er een nieuw SQL-script wordt gemaakt en uitgevoerd.

  5. U ziet dat bovenaan het SQL-script Verbinding maken met automatisch is ingesteld op de SQL-pool met de naam SQLPOOL1.

  6. Vervang de tekst van het SQL-script door deze code en voer deze uit.

    SELECT PassengerCount,
          SUM(TripDistanceMiles) as SumTripDistance,
          AVG(TripDistanceMiles) as AvgTripDistance
    FROM  dbo.NYCTaxiTripSmall
    WHERE TripDistanceMiles > 0 AND PassengerCount > 0
    GROUP BY PassengerCount
    ORDER BY PassengerCount;
    

    Deze query laat zien op welke manier de totale reisafstanden en de gemiddelde reisafstand betrekking hebben op het aantal reizigers.

  7. In het resultatenvenster van het SQL-script wijzigt u de Weergave in Grafiek om een visualisatie van de resultaten weer te geven als een lijndiagram.

Volgende stappen