Ejercicio: Realización de transmisión de datos mediante Azure Databricks

Ha llegado el momento de analizar un conjunto de datos de ejemplo mediante las instancias de Spark Structured Streaming y Azure Event Hubs que ha creado.

Nota

Para realizar los procedimientos siguientes, antes necesita haber implementado el área de trabajo de Azure Databricks en Azure Portal.

Clonación del archivo de Databricks

  1. En Azure Portal, vaya al área de trabajo implementada de Azure Databricks y seleccione Launch Workspace (Iniciar área de trabajo).
  2. En el área de trabajo, con la barra de comandos de la izquierda, seleccione Área de trabajo > Usuarios > el nombre de usuario (la entrada con el icono de la casa).
  3. En el panel que aparece, seleccione el botón de contenido adicional que apunta hacia abajo situado junto al nombre y seleccione Importar.
  4. En el cuadro de diálogo Import Notebooks (Importar cuadernos), seleccione URL y pegue la dirección URL siguiente:
     https://github.com/MicrosoftDocs/mslearn-streaming-in-azure-databricks/blob/master/DBC/08-Streaming.dbc?raw=true
    
  5. Seleccione Importar.
  6. Se mostrará una carpeta con el nombre del archivo. Selecciónelo. La carpeta contiene uno o varios cuadernos que se usarán para completar este laboratorio.

Completar cuatro cuadernos

Complete los cuadernos siguientes de la carpeta 08-Streaming:

  • 01-Getting started: con este cuaderno podrá empezar a trabajar con el centro de eventos. Si ya ha creado el centro de eventos en la unidad anterior, puede omitir este cuaderno.
  • 02-Spark-Structured-Streaming: en este cuaderno, trabajará en un conjunto de datos de ejemplo para realizar procesamiento interactivo y por lotes. También podrá crear consultas de streaming para actualizar el conjunto de datos de destino.
  • 03-Event-Hubs: en este cuaderno se ofrecen instrucciones detalladas sobre cómo realizar el procesamiento de mensajes casi en tiempo real con Spark Structured Streaming, mediante el envío de un lote de mensajes a Event Hubs.
  • 04-Streaming-with-Databricks-Delta: finalmente, en este cuaderno escribirá los datos de streaming en almacenamiento de Azure Data Lake.