Análisis de datos con un grupo de SQL sin servidor

En este tutorial, aprenderá a analizar los datos con un grupo de SQL sin servidor.

El grupo de SQL sin servidor integrado

Los grupos de SQL sin servidor permiten usar SQL sin necesidad de reservar capacidad. La facturación de un grupo de SQL sin servidor se basa en la cantidad de datos procesados para ejecutar la consulta y no en el número de recursos usados para ello.

Todas las áreas de trabajo incluyen un grupo de SQL sin servidor preconfigurado llamado Built-in.

Análisis de datos de taxis de Nueva York con un grupo de SQL sin servidor

  1. En Synapse Studio, vaya al menú central Develop (Desarrollo).

  2. Se creará un nuevo script de SQL.

  3. Pegue el código siguiente en el script.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Haga clic en Ejecutar.

La exploración de datos es simplemente un escenario simplificado en el que puede comprender las características básicas de los datos. Aprenda más sobre la exploración y el análisis de datos en este tutorial.

Creación de una base de datos de exploración de datos

Puede examinar el contenido de los archivos directamente mediante la base de datos master. En algunos escenarios sencillos de exploración de datos, no es necesario crear una base de datos independiente. Sin embargo, a medida que continúa la exploración de datos, puede ser conveniente crear algunos objetos de utilidad, como por ejemplo:

  • Orígenes de datos externos que representan las referencias con nombre de las cuentas de almacenamiento.
  • Credenciales con ámbito de base de datos que permiten especificar cómo autenticarse en un origen de datos externo.
  • Usuarios de base de datos con permisos para acceder a algunos orígenes de datos u objetos de base de datos.
  • Vistas, procedimientos y funciones de la utilidad que puede usar en las consultas.
  1. Use la base de datos master para crear una base de datos independiente para objetos de base de datos personalizados. No se pueden crear objetos de base de datos personalizados en la base de datos master.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Importante

    Use una intercalación con sufijo _UTF8 para que el texto UTF-8 se convierta correctamente en columnas VARCHAR. Latin1_General_100_BIN2_UTF8 proporciona el mejor rendimiento en las consultas que leen datos de archivos Parquet y contenedores de Cosmos DB.

  2. Cambie a DataExplorationDB, donde puede crear objetos de utilidad, como credenciales y orígenes de datos.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Nota

    Los orígenes de datos externos se pueden crear sin credenciales. Si no existe ninguna credencial, se usará la identidad del autor de la llamada para acceder al origen de datos externo.

  3. Otra posibilidad es usar la base de datos "maestra" para crear un inicio de sesión para un usuario en DataExplorationDB que va a acceder a datos externos:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Luego, cree un usuario de base de datos en DataExplorationDB para el inicio de sesión y conceda el permiso ADMINISTER DATABASE BULK OPERATIONS.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  4. Explore el contenido del archivo mediante la ruta de acceso relativa y el origen de datos:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    

La base de datos de exploración de datos es solamente un simple marcador de posición donde puede almacenar los objetos de utilidad. El grupo de Synapse SQL le permite hacer mucho más y crear una instancia lógica de Data Warehouse: una capa relacional basada en orígenes de datos de Azure. Aprenda más sobre la creación de instancias lógicas de Data Warehouse en este tutorial.

Pasos siguientes