Introducción

Delta Lake es un proyecto de código abierto que permite crear una arquitectura de Lakehouse sobre lagos de datos. Delta Lake proporciona transacciones ACID, control escalable de metadatos y unifica el streaming y el procesamiento de datos por lotes sobre los lagos de datos existentes.

En concreto, Delta Lake ofrece:

  • Transacciones ACID en Spark: los niveles de aislamiento serializables garantizan que los lectores nunca vean datos incoherentes.
  • Control escalable de metadatos: aprovecha la capacidad de procesamiento distribuido de Spark para controlar todos los metadatos de las tablas de escala de petabytes con miles de millones de archivos a su gusto.
  • Streaming y unificación por lotes: una tabla de Delta Lake es una tabla por lotes, así como un origen y receptor de streaming. La ingesta de datos de streaming, la reposición histórica por lotes y las consultas interactivas solo funcionan de forma lista.
  • Cumplimiento del esquema: controla automáticamente las variaciones de esquema para evitar la inserción de registros no correctas durante la ingesta.
  • Viaje en el tiempo: el control de versiones de datos permite reversión, registros de auditoría históricos completos y experimentos reproducibles de aprendizaje automático.
  • Upserts y deletes: admite operaciones de combinación, actualización y eliminación para habilitar casos de uso complejos como la captura de datos de cambios, las operaciones de dimensión de cambio lento (SCD), las operaciones upserts de streaming, y así sucesivamente.

Las optimizaciones de Delta Engine hacen que las operaciones de Delta Lake de alto rendimiento admitan una variedad de cargas de trabajo que van desde el procesamiento ETL a gran escala hasta consultas ad hoc e interactivas. Para obtener información sobre Delta Engine, vea Delta Engine.

Inicio rápido

El inicio rápido de Delta Lake proporciona información general sobre los conceptos básicos del trabajo con Delta Lake. En el inicio rápido se muestra cómo crear una canalización que lea datos JSON en una tabla Delta, modifique la tabla, lea la tabla, muestre el historial de tablas y optimice la tabla.

Para Azure Databricks que muestran estas características, consulte Cuadernos de introducción.

Para probar Delta Lake, consulte Registrarse para Azure Databricks.

Recursos