Bevezetés

A Delta Lake egy nyílt forráskódú projekt, amely lehetővé teszi egy Lakehouse-architektúra data lake-re való felépítését. A Delta Lake ACID-tranzakciókat, skálázható metaadatok kezelését, valamint a meglévő data lake-ek streamelését és kötegelt feldolgozását egységesíti.

A Delta Lake a következő ajánlatokat kínálja:

  • ACID-tranzakciók a Sparkban: A szerializálható elkülönítési szintek biztosítják, hogy az olvasók soha ne lássanak inkonzisztens adatokat.
  • Skálázható metaadatok kezelése: A Spark elosztott feldolgozási teljesítményével kezeli a petabájt méretű táblák metaadatait, több milliárd fájl egyszerű kezelésével.
  • Streamelés és kötegelt egységesítés: A Delta Lake-ben a tábla egy kötegelt tábla, valamint egy streamelési forrás és fogadó. A streamelési adatok betöltése, a kötegelt korábbi visszatöltés és az interaktív lekérdezések mind előre beválnak.
  • Sémakényszerítés: Automatikusan kezeli a sémaváltozatokat, hogy megakadályozza a hibás rekordok beillesztését a beszúrás során.
  • Idő utazása: Az adatok verziószámozása lehetővé teszi a visszaállítást, a teljes előzmény-naplózást és a reprodukálható gépi tanulási kísérleteket.
  • Upserts and deletes (Frissítések és törlések): Támogatja az egyesítési, frissítési és törlési műveleteket, így összetettebb eseteket is lehetővé tesz, például a változásadatok rögzítését, a lassan változó dimenzióműveleteket, a streamelési upsert műveleteket stb.

A Delta Engine optimalizálásai nagy teljesítményre teszik a Delta Lake-műveleteket, és számos különféle számítási feladatot támogatnak a nagy léptékű ETL-feldolgozástól az alkalmi, interaktív lekérdezésekig. További információ a Delta Engine-ről: Delta Engine.

Gyorsútmutató

A Delta Lake rövid útmutatója áttekintést nyújt a Delta Lake-hez való munka alapjairól. A rövid útmutató bemutatja, hogyan építhet ki olyan folyamatot, amely JSON-adatokat olvas be egy Delta-táblába, módosítja a táblát, beolvassa a táblát, megjeleníti a táblaelőzményeket, és optimalizálja a táblát.

A Azure Databricks ezeket a funkciókat bemutató jegyzetfüzeteket lásd: Bevezető jegyzetfüzetek.

A Delta Lake kipróbálásért lásd: Regisztráció a Azure Databricks.

Források