Vad är alla Delta-saker i Azure Databricks?

Den här artikeln är en introduktion till de tekniker som är gemensamt märkta med Delta på Azure Databricks. Delta avser tekniker som är relaterade till eller i Delta Lake öppen källkod-projektet.

Den här artikeln besvarar:

  • Vilka är Delta-teknikerna i Azure Databricks?
  • Vad gör de? Eller vad används de till?
  • Hur är de relaterade till och skilda från varandra?

Vad används Delta-sakerna till?

Delta är en term som introduceras med Delta Lake, grunden för att lagra data och tabeller i Databricks lakehouse. Delta Lake utformades som ett enhetligt datahanteringssystem för hantering av transaktionella realtids- och batch-stordata genom att utöka Parquet-datafiler med en filbaserad transaktionslogg för ACID-transaktioner och skalbar metadatahantering.

Delta Lake: OS-datahantering för lakehouse

Delta Lake är ett lagringslager med öppen källkod som ger tillförlitlighet till datasjöar genom att lägga till ett transaktionellt lagringslager ovanpå data som lagras i molnlagring (på AWS S3, Azure Storage och GCS). Det möjliggör ACID-transaktioner, dataversionshantering och återställningsfunktioner. Det gör att du kan hantera både batch- och strömmande data på ett enhetligt sätt.

Deltatabeller bygger på det här lagringslagret och ger en tabellabstraktion, vilket gör det enkelt att arbeta med storskaliga strukturerade data med SQL och DataFrame-API:et.

Deltatabeller: Standardarkitektur för datatabeller

Delta-tabellen är standardformatet för datatabeller i Azure Databricks och är en funktion i Delta Lake öppen källkod dataramverket. Deltatabeller används vanligtvis för datasjöar, där data matas in via direktuppspelning eller i stora batchar.

Se:

Delta Live Tables: Datapipelines

Delta Live Tables hanterar dataflödet mellan många Delta-tabeller, vilket förenklar datateknikers arbete med utveckling och hantering av ETL. Pipelinen är huvudkörningsenheten för Delta Live Tables. Delta Live Tables erbjuder deklarativ pipelineutveckling, förbättrad datatillförlitlighet och produktionsåtgärder i molnskala. Användare kan utföra både batch- och strömningsåtgärder i samma tabell och data är omedelbart tillgängliga för frågor. Du definierar de omvandlingar som ska utföras på dina data, och Delta Live Tables hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. Delta Live Tables Enhanced Autoscaling kan hantera strömmande arbetsbelastningar som är spetsiga och oförutsägbara.

Se självstudien Delta Live Tables.

Deltatabeller jämfört med Delta Live Tables

Deltatabell är ett sätt att lagra data i tabeller, medan Delta Live Tables låter dig beskriva hur data flödar mellan dessa tabeller deklarativt. Delta Live Tables är ett deklarativt ramverk som hanterar många deltatabeller genom att skapa dem och hålla dem uppdaterade. Kort och kort är Delta-tabeller en datatabellarkitektur medan Delta Live Tables är ett ramverk för datapipeline.

Delta: Öppen källkod eller upphovsrättsskyddad?

En styrka med Azure Databricks-plattformen är att den inte låser kunderna till proprietära verktyg: Mycket av tekniken drivs av öppen källkod projekt som Azure Databricks bidrar till.

Delta OSS-projekten är exempel:

Delta Live Tables är ett patentskyddat ramverk i Azure Databricks.

Vad är de andra Delta-sakerna i Azure Databricks?

Nedan visas beskrivningar av andra funktioner som innehåller Delta i deras namn.

Deltadelning

Deltadelning är en öppen standard för säker datadelning och möjliggör datadelning mellan organisationer oavsett beräkningsplattform.

Deltamotor

En frågeoptimerare för stordata som använder Delta Lake öppen källkod teknik som ingår i Databricks. Deltamotorn optimerar prestandan för Spark SQL-, Databricks SQL- och DataFrame-åtgärder genom att push-överföra beräkningen till data.

Delta Lake-transaktionslogg (AKA DeltaLogs)

En enda sanningskälla som spårar alla ändringar som användare gör i tabellen och den mekanism genom vilken Delta Lake garanterar atomitet. Se deltatransaktionsloggprotokollet på GitHub.

Transaktionsloggen är nyckeln till att förstå Delta Lake, eftersom det är den röda tråden som går igenom många av dess viktigaste funktioner:

  • ACID-transaktioner
  • Skalbar metadatahantering
  • Tidsresa
  • Och mer.