Mi az a data lakehouse?

Cikk
03/01/2024

A data lakehouse egy olyan adatkezelési rendszer, amely egyesíti az adattavak és az adattárházak előnyeit. Ez a cikk ismerteti a Lakehouse architektúramintáját, és azt, hogy mit tehet vele az Azure Databricksben.

A diagram of the lakehouse architecture using Unity Catalog and delta tables.

Mire használható a data lakehouse?

A data lakehouse skálázható tárolási és feldolgozási képességeket biztosít a modern szervezetek számára, amelyek el szeretnék kerülni a különböző számítási feladatok, például a gépi tanulás (ML) és az üzleti intelligencia (BI) feldolgozására szolgáló elkülönített rendszereket. A data lakehouse segíthet egyetlen igazságforrás létrehozásában, a redundáns költségek megszüntetésében és az adatok frissességének biztosításában.

A Data Lakehouse-k gyakran olyan adattervezési mintát használnak, amely növekményesen javítja, bővíti és finomítja az adatokat, miközben az előkészítési és átalakítási rétegeken halad át. A tóház minden rétege tartalmazhat egy vagy több réteget. Ezt a mintát gyakran medálarchion architektúrának nevezik. További információ: Mi a medallion lakehouse architektúra?

Hogyan működik a Databricks lakehouse?

A Databricks az Apache Sparkra épül. Az Apache Spark egy nagymértékben méretezhető motort tesz lehetővé, amely a tárterülettől leválasztott számítási erőforrásokon fut. További információ: Apache Spark az Azure Databricksben

A Databricks lakehouse két további kulcsfontosságú technológiát használ:

Delta Lake: egy optimalizált tárolási réteg, amely támogatja az ACID-tranzakciókat és a sémaérvényesítést.
Unity Catalog: egységes, részletes szabályozási megoldás az adatokhoz és az AI-hoz.

Adatok betöltése

A betöltési rétegben a kötegelt vagy streamelési adatok különböző forrásokból és különböző formátumokból érkeznek. Ez az első logikai réteg helyet biztosít az adatoknak a nyers formátumba való leszálláshoz. Amikor ezeket a fájlokat Delta-táblákká konvertálja, a Delta Lake sémakényszerítési képességeivel ellenőrizheti a hiányzó vagy váratlan adatokat. A Unity Catalog használatával táblákat regisztrálhat az adatszabályozási modell és a szükséges adatelkülönítési határok szerint. A Unity Catalog lehetővé teszi az adatok átalakításának és finomításának nyomon követését, valamint egységes szabályozási modell alkalmazását a bizalmas adatok privát és biztonságos megőrzése érdekében.

Adatfeldolgozás, gondnokság és integráció

Az ellenőrzés után megkezdheti az adatok kurálását és finomítását. Az adattudósok és a gépi tanulási szakemberek ebben a szakaszban gyakran dolgoznak az adatokkal, hogy új funkciókat kombináljanak vagy hozzanak létre, és teljes körű adattisztítást végezzenek. Miután az adatok alaposan megtisztítva lettek, integrálhatók és átszervezhetők az adott üzleti igényeknek megfelelő táblákba.

A deltasémafejlődési képességekkel kombinált sémaalapú megközelítés azt jelenti, hogy anélkül módosíthatja ezt a réteget, hogy szükségképpen át kellene írnia a végfelhasználók számára adatokat kiszolgáló alsóbb rétegbeli logikát.

Adatkiszolgáló

Az utolsó réteg tiszta, gazdagított adatokat szolgál ki a végfelhasználók számára. Az utolsó táblákat úgy kell megtervezni, hogy az összes használati esethez adatokat szolgáljanak ki. Az egységes szabályozási modell azt jelenti, hogy nyomon követheti az adatsorokat az egyetlen igazságforrásig. A különböző feladatokra optimalizált adatelrendezésekkel a végfelhasználók hozzáférhetnek a gépi tanulási alkalmazásokhoz, az adatelemzéshez, valamint az üzleti intelligencia és jelentéskészítés adataihoz.

További információ a Delta Lake-ről: Mi a Delta Lake? A Unity-katalógusról további információt a Unity Katalógus ismertetése című témakörben talál .

A Databricks lakehouse képességei

A Databricksre épülő tóház a modern adatvállalatok adattavainak és adattárházainak jelenlegi függőségét váltja fel. Néhány fontos feladat, amit végrehajthat:

Valós idejű adatfeldolgozás: Streamelési adatok valós idejű feldolgozása azonnali elemzéshez és művelethez.
Adatintegráció: Az adatok egységesítése egyetlen rendszerben, hogy lehetővé tegye az együttműködést, és egyetlen igazságforrást hozzon létre a szervezet számára.
Séma fejlődése: Az adatséma időbeli módosítása a változó üzleti igényekhez való alkalmazkodáshoz a meglévő adatfolyamok megzavarása nélkül.
Adatátalakítások: Az Apache Spark és a Delta Lake használata sebességet, méretezhetőséget és megbízhatóságot biztosít az adatokhoz.
Adatelemzés és jelentéskészítés: Összetett elemzési lekérdezések futtatása adatraktározási számítási feladatokhoz optimalizált motorral.
Gépi tanulás és AI: Fejlett elemzési technikák alkalmazása az összes adatra. Az ml használatával bővítheti az adatokat, és támogathatja az egyéb számítási feladatokat.
Adatok verziószámozása és származása: Az adathalmazok verzióelőzményeinek és a nyomon követésnek a fenntartása az adatok eredetének és nyomon követhetőségének biztosítása érdekében.
Adatszabályozás: Egyetlen, egységes rendszer használatával szabályozhatja az adatokhoz való hozzáférést, és auditokat hajthat végre.
Adatmegosztás: Az együttműködés megkönnyítése a válogatott adathalmazok, jelentések és elemzések csapatok közötti megosztásának engedélyezésével.
Működési elemzés: Az adatminőségi metrikák, a modellminőségi metrikák és a sodródás monitorozása gépi tanulás alkalmazásával a Lakehouse monitorozási adataira.

Lakehouse vs Data Lake vs Data Warehouse

Az adattárházak körülbelül 30 éve rendelkeznek üzletiintelligencia-(BI) döntésekkel, amelyek az adatáramlást vezérlő rendszerek tervezési irányelveiként alakultak ki. A vállalati adattárházak optimalizálják a bi-jelentések lekérdezéseit, de az eredmények létrehozása perceket vagy akár órákat is igénybe vehet. Olyan adatokhoz készült, amelyek nagy gyakorisággal nem változnak, az adattárházak célja, hogy megakadályozzák az egyidejűleg futó lekérdezések közötti ütközéseket. Számos adattárház védett formátumokra támaszkodik, amelyek gyakran korlátozzák a gépi tanulás támogatását. Az Azure Databricks adattárháza a Databricks lakehouse és a Databricks SQL képességeit használja ki. További információ: Mi az adattárház az Azure Databricksben?

Az adattárolási technológiai fejlődés és az adattípusok és adatmennyiség exponenciális növekedése által vezérelve az adattavak széles körben elterjedtek lettek az elmúlt évtizedben. A Data Lakes olcsón és hatékonyan tárolja és dolgozza fel az adatokat. A data lake-eket gyakran az adattárházakkal szemben definiálják: Az adattárházak tiszta, strukturált adatokat biztosítanak a BI-elemzésekhez, míg a data lake véglegesen és olcsón bármilyen jellegű adatot tárol bármilyen formátumban. Számos szervezet adatelemzéshez és gépi tanuláshoz használja a data lake-eket, a bi-jelentésekhez azonban nem, mert az ismeretlen természete miatt nem.

A data lakehouse egyesíti a data lakes és az adattárházak előnyeit, és a következő lehetőségeket nyújtja:

Nyílt, közvetlen hozzáférés a standard adatformátumokban tárolt adatokhoz.
Gépi tanulásra és adatelemzésre optimalizált indexelési protokollok.
Alacsony lekérdezési késés és magas megbízhatóság bi- és speciális elemzésekhez.

Az optimalizált metaadat-réteg és a felhőobjektum-tárolóban szabványos formátumban tárolt érvényesített adatok kombinálásával a data lakehouse lehetővé teszi az adattudósok és az ml-mérnökök számára, hogy azonos adatvezérelt BI-jelentésekből készítsenek modelleket.

Következő lépés

Ha többet szeretne megtudni a databricks használatával történő tóház megvalósításának és üzemeltetésének alapelveiről és ajánlott eljárásairól, tekintse meg a jól felépítésű data lakehouse bemutatása című témakört.

Share via