Úvod

Rozdílový Lake je Open Source vrstva úložiště , která přináší spolehlivost na datové jezera. Delta Lake nabízí transakce ACID a škálovatelné zpracování metadat a sjednocuje streamování a dávkové zpracování dat. Delta Lake se spouští nad stávajícím datovým Lake a je plně kompatibilní s Apache Spark rozhraní API.

Konkrétně se jedná o rozdílové nabídky Lake Lake:

  • KYSELé transakce v Sparku: serializovatelné úrovně izolace zajistí, aby čtenáři nikdy neviděli nekonzistentní data.
  • Škálovatelné zpracování metadat: využívá výkon distribuovaného zpracování Sparku pro zpracování všech metadat pro tabulky řádu petabajtů s miliardami souborů.
  • Odhlašování a zajímání dávek: tabulka v rozdílových Lake je tabulka Batch a také zdroj a jímka streamování. Ingestování streamování dat, Batch – historické zpětné dotazy, interaktivní dotazy, které fungují pouze v poli.
  • Vynucení schématu: automaticky zpracovává variace schémat, aby se zabránilo vložení špatných záznamů během příjmu.
  • Doba provozu: Správa verzí dat umožňuje vrácení zpět, úplné historické revizní záznamy a reprodukovatelné experimenty strojového učení.
  • Upsertuje a Delete: podporuje operace sloučení, aktualizace a odstranění, aby se povolily složité případy použití jako Change-Data-Capture, pomalé změny-Dimension (SCD), streamování upsertuje a tak dále.

Optimalizace rozdílových modulů usnadňují operace rozdílového Lake, což podporuje nejrůznější úlohy od zpracování ve velkém měřítku až po ad hoc a interaktivní dotazy. Informace o rozdílovém stroji najdete v tématu rozdílový modul.

Rychlé zprovoznění

V tomto rychlém startu získáte přehled základních informací o práci s rozdílovým Lake. V tomto rychlém startu se dozvíte, jak vytvořit kanál, který čte data JSON do tabulky Delta, upravuje tabulku, přečte tabulku, zobrazuje historii tabulek a optimalizuje tabulku.

Azure Databricks poznámkových blocích, které tyto funkce ukazují, najdete v části úvodní poznámkové bloky.

Pokud si chcete vyzkoušet rozdílový Lake, přečtěte si téma registrace Azure Databricks.

Zdroje informací