Анализ данных с помощью выделенных пулов SQL

В этом руководстве показано, как использовать данные о такси Нью-Йорка для изучения возможностей выделенного пула SQL.

Создание выделенного пула SQL

  1. В Synapse Studio в области навигации слева в разделе Пулы аналитики выберите Управление>Пулы SQL.
  2. Выберите Создать.
  3. В поле Имя выделенного пула SQL выберите SQLPOOL1.
  4. В поле Уровень производительности выберите DW100C
  5. Выберите команду Просмотреть и создать>Создать. Выделенный пул SQL будет готов через несколько минут.

Ваш выделенный пул SQL связан с базой данных SQL, также называемой SQLPOOL1.

  1. Перейдите в область Данные>Рабочая область.
  2. Должна отобразиться база данных с именем SQLPOOL1. Если команда не отображается, нажмите кнопку Обновить.

Выделенный пул SQL использует платные ресурсы, пока он активен. Позже пул можно будет приостановить, чтобы снизить затраты.

Примечание

При создании выделенного пула SQL (ранее — Хранилище данных SQL) в рабочей области откроется страница подготовки выделенного пула SQL. Подготовка будет выполняться на логическом сервере SQL Server.

Загрузка данных такси Нью-Йорка в SQLPOOL1

  1. В Synapse Studio перейдите в центр Разработка, нажмите кнопку + для добавления нового ресурса, а затем создайте скрипт SQL.

  2. В раскрывающемся списке Подключение к над скриптом выберите пул SQLPOOL1 (создан на шаге 1 этого руководства).

  3. Введите следующий код:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
         [DateID] int,
         [MedallionID] int,
         [HackneyLicenseID] int,
         [PickupTimeID] int,
         [DropoffTimeID] int,
         [PickupGeographyID] int,
         [DropoffGeographyID] int,
         [PickupLatitude] float,
         [PickupLongitude] float,
         [PickupLatLong] nvarchar(4000),
         [DropoffLatitude] float,
         [DropoffLongitude] float,
         [DropoffLatLong] nvarchar(4000),
         [PassengerCount] int,
         [TripDurationSeconds] int,
         [TripDistanceMiles] float,
         [PaymentType] nvarchar(4000),
         [FareAmount] numeric(19,4),
         [SurchargeAmount] numeric(19,4),
         [TaxAmount] numeric(19,4),
         [TipAmount] numeric(19,4),
         [TollsAmount] numeric(19,4),
         [TotalAmount] numeric(19,4)
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (DateID 1, MedallionID 2, HackneyLicenseID 3, PickupTimeID 4, DropoffTimeID 5,
    PickupGeographyID 6, DropoffGeographyID 7, PickupLatitude 8, PickupLongitude 9, 
    PickupLatLong 10, DropoffLatitude 11, DropoffLongitude 12, DropoffLatLong 13, 
    PassengerCount 14, TripDurationSeconds 15, TripDistanceMiles 16, PaymentType 17, 
    FareAmount 18, SurchargeAmount 19, TaxAmount 20, TipAmount 21, TollsAmount 22, 
    TotalAmount 23)
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Нажмите кнопку Выполнить, чтобы выполнить скрипт.

  5. Выполнение скрипта займет менее 60 секунд. Он загружает 2 млн строк данных о такси Нью-Йорка в таблицу dbo.NYCTaxiTripSmall.

Обзор данных о такси Нью-Йорка в выделенном пуле SQL

  1. В Synapse Studio перейдите в центр Данные.

  2. Выберите SQLPOOL1>Таблицы.

  3. Щелкните правой кнопкой мыши таблицу dbo.NYCTaxiTripSmall и выберите команду Создать скрипт SQL>Выбрать первые 100 строк.

  4. Подождите, пока новый скрипт SQL будет создан и запущен.

  5. Обратите внимание, что в верхней части скрипта SQL для параметра Connect to (Подключиться к) автоматически задано значение пула SQL с именем SQLPOOL1.

  6. Замените текст скрипта SQL этим кодом и запустите его.

    SELECT PassengerCount,
          SUM(TripDistanceMiles) as SumTripDistance,
          AVG(TripDistanceMiles) as AvgTripDistance
    FROM  dbo.NYCTaxiTripSmall
    WHERE TripDistanceMiles > 0 AND PassengerCount > 0
    GROUP BY PassengerCount
    ORDER BY PassengerCount;
    

    Этот запрос показывает, как общее время поездки и среднее расстояние поездки связаны с количеством пассажиров.

  7. В окне результатов скрипта SQL измените представление с Обзор на График, чтобы увидеть визуализацию результатов в виде графика.

Дальнейшие действия