Introducción

Imagine que trabaja en el departamento de análisis de una gran compañía aérea. Forma parte de un equipo que analiza los motivos que provocan el retraso de los vuelos a partir de datos en tiempo real de vuelos de todo el mundo. Su trabajo consiste en analizar el flujo continuo de datos de entrada y transmitirlos al almacenamiento de Azure Data Lake. Esos datos incluyen detalles como la compañía aérea, el motivo de los retrasos y la hora de salida. Para procesar los datos usa Azure Event Hubs.

Nota

Los laboratorios de este módulo se pueden completar de forma gratuita con la versión de prueba de 14 días de Databricks, pero no se puede usar una suscripción de prueba gratuita de Azure para crear un área de trabajo de Databricks. Para pasar de una suscripción de prueba gratuita a una de pago por uso, vaya a su perfil y cambie la oferta de suscripción a pago por uso. También es posible que deba quitar el límite de gasto y solicitar un aumento de cuota de vCPU en su región. Al crear el área de trabajo de Azure Databricks, puede seleccionar el plan de tarifa de versión de prueba (Premium, con 14 días de DBU gratuitas) para permitir el acceso al área de trabajo a DBU Premium de Azure Databricks durante 14 días.

Objetivos de aprendizaje

En este módulo, aprenderá a:

  • Usar Spark Structured Streaming, Azure Event Hubs y Databricks Delta para leer y escribir en secuencias.
  • Procesar datos de transmisión con Azure Databricks.