Tutorial: Captura de datos de Event Hubs en formato Parquet y análisis con Azure Synapse Analytics

Este tutorial muestra cómo usar el editor sin código de Stream Analytics para crear un trabajo que capture los datos de Event Hubs en Azure Data Lake Storage Gen2 en formato Parquet.

En este tutorial, aprenderá a:

  • Implementar un generador de eventos que envíe eventos de ejemplo al centro de eventos
  • Crear un trabajo de Stream Analytics mediante el editor sin código
  • Revisar los datos de entrada y el esquema
  • Configurar Azure Data Lake Storage Gen2 para definir los datos del centro de eventos que se capturarán
  • Ejecución del trabajo de Stream Analytics
  • Usar Azure Synapse Analytics para consultar los archivos Parquet

Requisitos previos

Antes de empezar, asegúrese de que ha completado los pasos siguientes:

Uso del editor sin código para crear un trabajo de Stream Analytics

  1. Busque el grupo de recursos en el que se implementó el generador de eventos de TollApp.

  2. Seleccione el espacio de nombres de Azure Event Hubs.

  3. En la página Espacio de nombres de Event Hubs, seleccione Event Hubs en Entidades en el menú de la izquierda.

  4. Seleccione la instancia entrystream.

    Captura de pantalla que muestra la selección del centro de eventos.

  5. En la página Instancia de Event Hubs, seleccione Procesar datos en la sección Características del menú de la izquierda.

  6. Seleccione Iniciar en el mosaico Capturar datos a ADLS Gen2 en formato Parquet.

    Captura de pantalla que muestra la selección del icono **Capturar datos a ADLS Gen2 en formato Parquet**.

  7. Asigne al trabajo el nombre parquetcapture y seleccione Crear.

    Captura de pantalla en la que se muestra la página Nuevo trabajo de Stream Analytics.

  8. En la página de configuración del centro de eventos, confirme la siguiente configuración y, a continuación, seleccione Conectar.

    • Grupo de consumidores: valor predeterminado

    • Tipo de serialización de los datos de entrada: JSON

    • Modo de autenticación que el trabajo usará para conectarse al centro de eventos: Cadena de conexión.

      Captura de pantalla de la página de configuración del centro de eventos.

  9. En pocos segundos, verá datos de entrada de ejemplo y el esquema. Puede elegir anular campos, cambiar su nombre o cambiar el tipo de datos.

    Captura de pantalla que muestra los campos y la vista previa de los datos.

  10. Seleccione el mosaico de Azure Data Lake Storage Gen2 en el lienzo y especifique las configuraciones siguientes:

    • Suscripción en la que se encuentra la cuenta de Azure Data Lake Gen2.
    • Nombre de la cuenta de almacenamiento, que debe ser la misma cuenta de ADLS Gen2 que se usa con el área de trabajo de Azure Synapse Analytics creada en la sección Requisitos previos.
    • Contenedor en el que se crearán los archivos Parquet.
    • Patrón de ruta de acceso establecido en {date}/{time}.
    • Patrón de fecha y hora como los valores predeterminados yyyy-mm-dd y HH.
    • Seleccione Conectar.

    Captura de pantalla que muestra las opciones de configuración de Data Lake Storage.

  11. Seleccione Guardar en la barra de herramientas superior para guardar el trabajo y, a continuación, seleccione Iniciar para ejecutar el trabajo. Una vez iniciado el trabajo, seleccione X en la esquina derecha para cerrar la página del trabajo de Stream Analytics.

    Captura de pantalla que muestra la página Inicio del trabajo de Stream Analytics.

  12. A continuación, verá una lista de todos los trabajos de Stream Analytics creados con el editor sin código. Y en un plazo de dos minutos, el trabajo adoptará un estado En ejecución. Seleccione el botón Actualizar de la página para ver el estado cambiar de Creado -> Iniciando -> En ejecución.

    Captura de pantalla en la que se enumeran los trabajos de Stream Analytics.

Visualización de la salida en la cuenta de Azure Data Lake Storage Gen2

  1. Busque la cuenta de Azure Data Lake Storage Gen2 que usó en el paso anterior.

  2. Seleccione el contenedor que usó en el paso anterior. Verá los archivos Parquet creados en función del patrón de ruta de acceso {date}/{time} usado en el paso anterior.

    Captura de pantalla de los archivos Parquet capturados en Azure Data Lake Storage Gen2.

Consulta de datos capturados en formato Parquet con Azure Synapse Analytics

Consulta mediante Azure Synapse Spark

  1. Busque el área de trabajo de Azure Synapse Analytics y abra Synapse Studio.

  2. Cree un grupo de Apache Spark sin servidor en el área de trabajo si aún no existe ninguno.

  3. En Synapse Studio, vaya al centro Desarrollo y cree un nuevo cuaderno.

  4. Cree una nueva celda de código y pegue el código siguiente en ella. Reemplace container y adlsname por el nombre del contenedor y la cuenta de ADLS Gen2 que usó en el paso anterior.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. En Asociar a en la barra de herramientas, seleccione el grupo de Spark en la lista desplegable.

  6. Seleccione Ejecutar todo para ver los resultados.

    Captura de pantalla de los resultados de la ejecución de Spark en Azure Synapse Analytics.

Consulta mediante SQL sin servidor de Azure Synapse

  1. En el centro Desarrollo, cree un nuevo script de SQL.

    Captura de pantalla en la que se muestra la página Desarrollo con la opción de menú Script de SQL seleccionada.

  2. Pegue el siguiente script y ejecútelocon el punto de conexión de SQL sin servidor integrado. Reemplace container y adlsname por el nombre del contenedor y la cuenta de ADLS Gen2 que usó en el paso anterior.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Captura de pantalla de los resultados del script de SQL en Azure Synapse Analytics.

Limpieza de recursos

  1. Busque la instancia de Event Hubs y consulte la lista de trabajos de Stream Analytics en la sección Procesar datos. Detenga los trabajos que se estén ejecutando.
  2. Vaya al grupo de recursos que usó al implementar el generador de eventos de TollApp.
  3. Seleccione Eliminar grupo de recursos. Escriba el nombre del grupo de recursos para confirmar la eliminación.

Pasos siguientes

En este tutorial, ha aprendido a crear un trabajo de Stream Analytics con el editor sin código para capturar flujos de datos de Event Hubs en formato Parquet. Posteriormente, ha usado Azure Synapse Analytics para consultar los archivos Parquet mediante Synapse Spark y Synapse SQL.