Co jsou všechny věci Delta v Azure Databricks?

Tento článek je úvodem k technologiím, které se souhrnně označují jako Delta v Azure Databricks. Delta odkazuje na technologie související s opensourcovými projekty Delta Lake nebo s nimi.

Tento článek odpovídá:

  • Jaké jsou technologie Delta v Azure Databricks?
  • Co dělají? Nebo k čemu slouží?
  • Jak souvisí a liší se od sebe?

K čemu slouží rozdílové věci?

Delta je termín zavedený v Delta Lake, základem pro ukládání dat a tabulek do datového jezeraHouse Databricks. Delta Lake byla navržena jako jednotný systém pro správu dat pro zpracování transakčních velkých objemů dat v reálném čase a dávkové velké objemy dat rozšířením datových souborů Parquet s protokolem transakcí založeným na souborech pro transakce ACID a škálovatelné zpracování metadat.

Delta Lake: Správa dat operačního systému pro lakehouse

Delta Lake je opensourcová vrstva úložiště, která přináší spolehlivost datových jezer přidáním transakční vrstvy úložiště nad daty uloženými v cloudovém úložišti (v AWS S3, Azure Storage a GCS). Umožňuje transakce ACID, správu verzí dat a možnosti vrácení zpět. Umožňuje zpracovávat dávková i streamovaná data jednotným způsobem.

Tabulky Delta jsou postavené na této vrstvě úložiště a poskytují abstrakci tabulek, což usnadňuje práci s rozsáhlými strukturovanými daty pomocí SQL a rozhraní DATAFrame API.

Tabulky Delta: Výchozí architektura tabulek dat

Tabulka Delta je výchozí formát tabulky dat v Azure Databricks a je funkcí opensourcové datové architektury Delta Lake. Tabulky Delta se obvykle používají pro datová jezera, kde se data ingestují prostřednictvím streamování nebo ve velkých dávkách.

Přečtěte si:

Delta Live Tables: Datové kanály

Rozdílové živé tabulky spravují tok dat mezi mnoha tabulkami Delta, což zjednodušuje práci datových inženýrů na vývoji a správě ETL. Kanál je hlavní jednotkou provádění pro rozdílové živé tabulky. Delta Live Tables nabízí deklarativní vývoj kanálů, vylepšenou spolehlivost dat a provozní operace v cloudovém měřítku. Uživatelé můžou provádět dávkové i streamované operace ve stejné tabulce a data jsou okamžitě k dispozici pro dotazování. Transformace, které se mají provádět s daty, a Delta Live Tables spravuje orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb. Rozšířené automatické škálování dynamických tabulek Delta dokáže zpracovávat úlohy streamování, které jsou nepředvídatelné a spiky.

Podívejte se na kurz Delta Live Tables.

Rozdílové tabulky vs. dynamické tabulky Delta

Tabulka Delta je způsob, jak ukládat data do tabulek, zatímco rozdílové živé tabulky umožňují popsat, jak data mezi těmito tabulkami proudí deklarativním způsobem. Delta Live Tables je deklarativní architektura, která spravuje mnoho tabulek delta tím, že je vytváří a udržuje je v aktualizovaném stavu. Tabulky Delta jsou stručně řečeno architekturou datových tabulek, zatímco Delta Live Tables je architektura datového kanálu.

Delta: Open source nebo proprietární?

Silnou stránkou platformy Azure Databricks je, že nezamkne zákazníky do proprietárních nástrojů: Velká část technologie využívá opensourcové projekty, ke kterým Azure Databricks přispívá.

Projekty Delta OSS jsou příklady:

  • Projekt Delta Lake: Opensourcové úložiště pro lakehouse
  • Protokol Delta Sharing: Otevřete protokol pro zabezpečené sdílení dat.

Delta Live Tables je proprietární architektura v Azure Databricks.

Jaké jsou další rozdílové věci v Azure Databricks?

Níže jsou uvedeny popisy dalších funkcí, které ve svém názvu obsahují Delta .

Rozdílové sdílení

Otevřený standard pro zabezpečené sdílení dat umožňuje sdílení dat mezi organizacemi bez ohledu na jejich výpočetní platformu.

Modul Delta

Optimalizátor dotazů pro velké objemy dat, který používá opensourcovou technologii Delta Lake, která je součástí Databricks. Modul Delta optimalizuje výkon operací Spark SQL, Databricks SQL a DataFrame tím, že do dat odesílá výpočty.

Transakční protokol Delta Lake (AKA DeltaLogs)

Jediný zdroj pravdy sledující všechny změny, které uživatelé v tabulce dělají, a mechanismus, prostřednictvím kterého Delta Lake zaručuje atomicitu. Podívejte se na protokol transakčního protokolu Delta na GitHubu.

Transakční protokol je klíčem k pochopení Delta Lake, protože se jedná o běžné vlákno, které prochází mnoha jeho nejdůležitějšími funkcemi:

  • Transakce ACID
  • Škálovatelné zpracování metadat
  • Časová cesta
  • A další.