Análisis de datos con un grupo de SQL sin servidor
En este tutorial, aprenderá a analizar los datos con un grupo de SQL sin servidor.
El grupo de SQL sin servidor integrado
Los grupos de SQL sin servidor permiten usar SQL sin necesidad de reservar capacidad. La facturación de un grupo de SQL sin servidor se basa en la cantidad de datos procesados para ejecutar la consulta y no en el número de recursos usados para ello.
Todas las áreas de trabajo incluyen un grupo de SQL sin servidor preconfigurado llamado Built-in.
Análisis de datos de taxis de Nueva York con un grupo de SQL sin servidor
Nota
Asegúrese de que ha colocado los datos de ejemplo en la cuenta de almacenamiento principal.
En Synapse Studio, vaya al menú central Develop (Desarrollo).
Se creará un nuevo script de SQL.
Pegue el código siguiente en el script.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]Haga clic en Ejecutar.
La exploración de datos es simplemente un escenario simplificado en el que puede comprender las características básicas de los datos. Aprenda más sobre la exploración y el análisis de datos en este tutorial.
Creación de una base de datos de exploración de datos
Puede examinar el contenido de los archivos directamente mediante la base de datos master. En algunos escenarios sencillos de exploración de datos, no es necesario crear una base de datos independiente.
Sin embargo, a medida que continúa la exploración de datos, puede ser conveniente crear algunos objetos de utilidad, como por ejemplo:
- Orígenes de datos externos que representan las referencias con nombre de las cuentas de almacenamiento.
- Credenciales con ámbito de base de datos que permiten especificar cómo autenticarse en un origen de datos externo.
- Usuarios de base de datos con permisos para acceder a algunos orígenes de datos u objetos de base de datos.
- Vistas, procedimientos y funciones de la utilidad que puede usar en las consultas.
Use la base de datos
masterpara crear una base de datos independiente para objetos de base de datos personalizados. No se pueden crear objetos de base de datos personalizados en la base de datosmaster.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8Importante
Use una intercalación con sufijo
_UTF8para que el texto UTF-8 se convierta correctamente en columnasVARCHAR.Latin1_General_100_BIN2_UTF8proporciona el mejor rendimiento en las consultas que leen datos de archivos Parquet y contenedores de Cosmos DB.Cambie a
DataExplorationDB, donde puede crear objetos de utilidad, como credenciales y orígenes de datos.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')Nota
Los orígenes de datos externos se pueden crear sin credenciales. Si no existe ninguna credencial, se usará la identidad del autor de la llamada para acceder al origen de datos externo.
Otra posibilidad es usar la base de datos "maestra" para crear un inicio de sesión para un usuario en
DataExplorationDBque va a acceder a datos externos:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';Luego, cree un usuario de base de datos en
DataExplorationDBpara el inicio de sesión y conceda el permisoADMINISTER DATABASE BULK OPERATIONS.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GOExplore el contenido del archivo mediante la ruta de acceso relativa y el origen de datos:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
La base de datos de exploración de datos es solamente un simple marcador de posición donde puede almacenar los objetos de utilidad. El grupo de Synapse SQL le permite hacer mucho más y crear una instancia lógica de Data Warehouse: una capa relacional basada en orígenes de datos de Azure. Aprenda más sobre la creación de instancias lógicas de Data Warehouse en este tutorial.