Bien démarrer avec Delta Lake

Effectué

Delta Lake est une couche de stockage open source qui ajoute la sémantique d’une base de données relationnelle au traitement du lac de données basé sur Spark. Delta Lake est pris en charge dans les pools Spark Azure Synapse Analytics pour le code PySpark, Scala et .NET.

Les avantages de l’utilisation de Delta Lake dans Azure Databricks sont les suivants :

  • Des tables relationnelles qui prennent en charge l’interrogation et la modification des données. Avec Delta Lake, vous pouvez stocker des données dans des tables qui prennent en charge les opérations CRUD (créer, lire, mettre à jour et supprimer). En d’autres termes, vous pouvez sélectionner, insérer, mettre à jour et supprimer des lignes de données de la même façon que dans un système de base de données relationnelle.
  • Prise en charge des transactions ACID. Les bases de données relationnelles sont conçues pour prendre en charge les modifications de données transactionnelles qui fournissent l’atomicité (transactions terminées sous forme d’une unité de travail unique), la cohérence (les transactions laissent la base de données dans un état cohérent), l’isolation (les transactions in-process ne peuvent pas interférer entre elles) et la durabilité (lorsqu’une transaction se termine, les modifications apportées sont persistantes). Delta Lake apporte cette même prise en charge transactionnelle à Spark en implémentant un journal des transactions et en appliquant une isolation sérialisable pour les opérations simultanées.
  • Contrôle de version des données et voyage dans le temps. Comme toutes les transactions sont enregistrées dans le journal des transactions, vous pouvez suivre plusieurs versions de chaque ligne de table et même utiliser la fonctionnalité de voyage dans le temps pour récupérer une version précédente d’une ligne dans une requête.
  • Prise en charge des données de traitement par lots et de diffusion en continu. Bien que la plupart des bases de données relationnelles incluent des tables qui stockent des données statiques, Spark inclut la prise en charge native des données de diffusion en continu via l’API Spark Structured Streaming. Les tables Delta Lake peuvent être utilisées en tant que récepteurs (destinations) et sources pour la diffusion en continu de données.
  • Formats standard et interopérabilité. Les données sous-jacentes des tables Delta Lake sont stockées au format Parquet, qui est couramment utilisé dans les pipelines d’ingestion de lac de données.

Conseil

Pour plus d’informations sur Delta Lake dans Azure Databricks, consultez le Guide de Delta Lake dans la documentation Azure Databricks.