Présentation

Effectué

Delta Lake de la Linux Foundation est une couche de stockage open source pour Spark qui active des fonctionnalités de base de données relationnelles pour les données de traitement par lots et de diffusion en continu. À l’aide de Delta Lake, vous pouvez implémenter une architecture de lakehouse de données dans Spark pour prendre en charge une sémantique de manipulation des données basée sur SQL avec prise en charge des transactions et de l’application d’un schéma. Le résultat est un magasin de données analytique qui offre les nombreux avantages d’un système de base de données relationnelle avec la flexibilité du stockage de fichiers de données dans un lac de données.

Dans ce module, vous allez découvrir comment :

  • Décrire les principales fonctionnalités de Delta Lake.
  • Créer et utiliser des tables Delta Lake dans Azure Databricks.
  • Créer des tables de catalogue Spark pour les données Delta Lake.
  • Utiliser des tables Delta Lake pour la diffusion en continu de données.

Notes

La version de Delta Lake disponible dans un cluster Azure Databricks dépend de la version Databricks Runtime utilisée. Les informations contenues dans ce module font référence à Delta Lake version 3.x, installé avec Spark 3.5.0 dans Databricks Runtime version 14.3.