Анализ данных с помощью бессерверного пула SQL

В этом руководстве показано, как анализировать данные с помощью бессерверного пула SQL.

Бессерверный пул SQL "Встроенный"

Бессерверные пулы SQL позволяют использовать SQL без необходимости резервировать мощность. Выставление счетов за использование бессерверного пула SQL зависит от объема данных, обработанных для выполнения запроса, а не от количества узлов, используемых для выполнения запроса.

Каждая рабочая область поставляется с предварительно настроенным бессерверным пулом SQL, который называется встроенным.

Анализ данных такси Нью-Йорка с помощью бессерверного пула SQL

  1. В Synapse Studio перейдите в центр Разработка.

  2. Создайте новый скрипт SQL.

  3. Вставьте следующий код в сценарий.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Нажмите кнопку Запустить.

Исследование данных — это упрощенный сценарий, в котором можно понять основные характеристики данных. Дополнительные сведения об исследовании и анализе данных см. в этом руководстве.

Создание базы данных для исследования данных

Содержимое файлов можно просматривать непосредственно через базу данных master. Для некоторых простых сценариев просмотра данных не нужно создавать отдельную базу. Однако для более глубокого изучения может потребоваться создать некоторые служебные объекты, например:

  • Внешние источники данных — именованные ссылки для учетных записей хранения.
  • Учетные данные в области базы данных, позволяющие указать способ проверки подлинности для доступа к внешнему источнику.
  • Пользователи базы данных с разрешениями на доступ к некоторым источникам или объектам базы.
  • Служебные представления, процедуры и функции, которые можно использовать в запросах.
  1. Создайте отдельную базу данных для использования этих объектов. В базе данных master нельзя создавать настраиваемые объекты базы данных.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Важно!

    Используйте параметры сортировки с суффиксом _UTF8, чтобы убедиться, что текст UTF-8 правильно преобразуется в столбцы VARCHAR. Latin1_General_100_BIN2_UTF8 обеспечивает максимальную производительность в запросах, считывающих данные из файлов Parquet и контейнеров Cosmos DB.

  2. Перейдите в DataExplorationDB, где можно создать служебные объекты, такие как учетные данные и источники данных.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Примечание

    Внешний источник данных можно создать без учетных данных. В этом случае для обращения к внешнему источнику будет использоваться удостоверение вызывающего.

  3. При необходимости создайте имя входа для пользователя в DataExplorationDB, который будет обращаться к внешним данным:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Создайте пользователя базы данных в DataExplorationDB для входа и предоставьте ему разрешение ADMINISTER DATABASE BULK OPERATIONS.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  4. Изучите содержимое файла, используя относительный путь и источник данных:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    

База данных для изучения данных — это просто заполнитель, в котором можно хранить служебные объекты. Пул Synapse SQL поддерживает гораздо больше возможностей и позволяет создать логическое хранилище данных — реляционный уровень на базе источников данных Azure. Дополнительные сведения о создании логических хранилищ данных можно найти в этом руководстве.

Дальнейшие действия