Analizzare i dati con pool SQL dedicati

In questa esercitazione usare i dati nyc Taxi per esplorare le funzionalità di un pool SQL dedicato.

Creare un pool SQL dedicato

  1. Nel riquadro sinistro di Synapse Studio selezionare Gestisci>pool SQL in Pool di analisi.
  2. Selezionare Nuovo.
  3. Per Nome pool SQL dedicato selezionare SQLPOOL1.
  4. Per Livello di prestazioni scegliere DW100C.
  5. Selezionare Rivedi e crea>Crea. Il pool SQL dedicato sarà pronto in pochi minuti.

Il pool SQL dedicato è associato a un database SQL denominato SQLPOOL1anche .

  1. Passare all'area di lavoro dati>.
  2. Verrà visualizzato un database denominato SQLPOOL1. Se non viene visualizzato, selezionare Aggiorna.

Un pool SQL dedicato utilizza risorse fatturabili finché è attivo. È possibile sospendere il pool in un secondo momento per ridurre i costi.

Nota

Quando si crea un nuovo pool SQL dedicato (in precedenza SQL Data Warehouse) nell'area di lavoro, verrà aperta la pagina per effettuarne il provisioning. Il provisioning verrà effettuato nel server SQL logico.

Caricare i dati dei taxi di New York in SQLPOOL1

  1. In Synapse Studio passare all'hub Sviluppo , selezionare il + pulsante per aggiungere una nuova risorsa e quindi creare un nuovo script SQL.

  2. Selezionare il pool SQLPOOL1 (pool creato nel PASSAGGIO 1 di questa esercitazione) in Connessione elenco a discesa sopra lo script.

  3. Immetti il codice seguente:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Selezionare il pulsante Esegui per eseguire lo script.

  5. Questo script termina in meno di 60 secondi. Carica 2 milioni di righe di dati nyc Taxi in una tabella denominata dbo.NYCTaxiTripSmall.

Esplorare i dati dei taxi di New York nel pool SQL dedicato

  1. In Synapse Studio passare all'hub Data (Dati).

  2. Passare a SQLPOOL1>Tabelle.

  3. Fare clic con il pulsante destro del mouse sul dbo. Tabella NYCTaxiTripSmall e selezionare Nuovo script>SQL Selezionare le prime 100 righe.

  4. Attendere mentre viene creato ed eseguito un nuovo script SQL.

  5. Nella parte superiore dello script SQL Connessione a viene impostato automaticamente sul pool SQL denominato SQLPOOL1.

  6. Sostituire il testo dello script SQL con il codice ed eseguirlo.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Questa query crea una tabella dbo.PassengerCountStats con dati aggregati dal trip_distance campo e quindi esegue una query sulla nuova tabella. I dati mostrano in che modo le distanze totali e la distanza media delle corse sono correlate al numero di passeggeri.

  7. Nella finestra dei risultati dello script SQL modificare la Vista impostandola su Grafico per visualizzare i risultati come un grafico a linee. Modificare la colonna Categoria in PassengerCount.

Passaggio successivo