Ingeniería de datos con Azure Databricks

Intermedio
Científico de datos
Ingeniero de datos
Azure
Databricks

Obtenga información sobre cómo usar Azure Databricks para acelerar la configuración de Databricks en Azure. Trabajará con datos en un almacén de Azure SQL Data Warehouse con los servicios de conectores integrados. Explore los servicios de datos disponibles en Azure Data Factory. Cree flujos de trabajo optimizados y trabaje con el área de trabajo de análisis interactivos, con tecnología de Apache Spark. Esta ruta de aprendizaje puede resultarle útil para preparar la certificación Microsoft Certified: Azure Developer Associate.

Requisitos previos

Para completar estos ejercicios, necesita una suscripción a Azure. Si no tiene ninguna, cree una cuenta gratuita y agregue una suscripción antes de empezar. Si es alumno, puede aprovechar las ventajas de la oferta Microsoft Azure for Students.

Módulos en esta ruta de aprendizaje

Conozca los aspectos fundamentales de los cuadernos de Azure Databricks y Apache Spark.

Obtenga información sobre cómo acceder a Azure SQL Data Warehouse desde Azure Databricks mediante el conector de SQL Data Warehouse. Esto le permite usar Apache Spark con Azure Blob Storage y PolyBase en SQL Data Warehouse para transferir grandes volúmenes de datos de forma eficaz entre un clúster de Databricks y una instancia de SQL Data Warehouse.

En este módulo, usará Azure Databricks para trabajar con varios orígenes de datos. Obtenga información sobre cómo combinar entradas de archivos y almacenes de datos (como Azure SQL Database) y transformar y almacenar esos datos para el análisis avanzado.

Use Azure Databricks para trabajar con varios orígenes de datos, combinando entradas de almacenes de datos y de archivos, como Azure SQL Database, y transformando y almacenando esos datos para realizar análisis avanzados.

Obtenga información sobre las herramientas y técnicas para realizar transformaciones de datos básicas en Azure Databricks.

Aprenda a realizar transformaciones de datos avanzadas en Azure Databricks y encapsule la lógica de transformación mediante bibliotecas y funciones definidas por el usuario (UDF).

Obtenga información sobre cómo usar Databricks Delta en Azure para administrar el flujo de datos (una canalización de datos) que entra y sale de Data Lake. Este sistema incluye mecanismos para crear, anexar e insertar datos en tablas de Apache Spark, aprovechando las optimizaciones y la confiabilidad integradas. Obtenga información sobre cómo la arquitectura de Databricks Delta contribuye a acelerar las lecturas y permite que varios autores modifiquen un conjunto de datos de forma simultánea y visualicen la misma vista. Por último, implemente una arquitectura lambda mediante el procesamiento de datos por lotes y de streaming con Delta.

Obtenga información sobre cómo analizar y procesar datos de streaming con Azure Event Hubs, Spark Structured Streaming y Databricks Delta.

Use Azure Databricks para crear visualizaciones básicas y avanzadas mediante gráficos integrados y bibliotecas de terceros como Matplotlib. Conecte los datos de Azure Databricks a Power BI para crear paneles de inteligencia empresarial que pueda compartir con otros usuarios.