Mi az a Data Lake?
A data lake egy tárház, amely nagy mennyiségű adatot tárol natív, nyers formátumban. A Data Lake-tárolók terabájtos és petabájtos adatokra való skálázásra vannak optimalizálva. Az adatok általában több heterogén forrásból származnak, és strukturáltak, részben strukturáltak vagy strukturálatlanok lehetnek. A data lake lényege, hogy mindent eredeti, nem lefordított állapotban tároljon. Ez a megközelítés eltér a hagyományos adattárháztól, amely a betöltéskor átalakítja és feldolgozza az adatokat.
A data lake-használati esetek a következők:
- Felhőbeli és IoT-adatáthelyezés
- Big data jellegű adatok feldolgozása
- Analytics
- Jelentéskészítés
- Helyszíni adatáthelyezés
A data lake előnyei:
- A rendszer soha nem dobja el az adatokat, mert az adatok nyers formátumban lesznek tárolva. Ez különösen hasznos egy big data-környezetben, amikor nem biztos, hogy előre tudja, milyen elemzések érhetők el az adatokból.
- A felhasználók megismerhetik az adatokat, és saját lekérdezéseket hozhatnak létre.
- Gyorsabb lehet, mint a hagyományos ETL-eszközök.
- Rugalmasabb, mint egy adattárház, mert strukturálatlan és félig strukturált adatokat tárolhat.
A teljes data lake-megoldás tárolásból és feldolgozásból áll. A Data Lake Storage hibatűrésre, végtelen méretezhetőségre és az adatok nagy átviteli sebességre való betöltésére lett tervezve, különböző alakzatokkal és méretekkel. A data lake-feldolgozás egy vagy több olyan feldolgozómotort foglal magában, amely ezeket a célokat szem előtt tartva épül fel, és nagy méretekben képes a data lake-ben tárolt adatokon működni.
Mikor érdemes data lake-t használni?
A data lake tipikus felhasználási módjai közé tartozik az adatfeltárás, az adatelemzés és a gépi tanulás.
A data lake az adattárház adatforrásaként is működhet. Ezzel a módszerrel a nyers adatok a data lake-be kerülnek, majd strukturált, lekérdezhető formátummá alakulnak. Ez az átalakítás általában egy ELT (extract-load-transform) folyamatot használ, ahol az adatok betöltése és átalakítása a helyén történik. A már relációs forrásadatok közvetlenül az adattárházba kerülhetnek egy ETL-folyamattal, kihagyva a data lake-t.
A data lake-tárolókat gyakran használják eseménystreamelési vagy IoT-forgatókönyvekben, mivel nagy mennyiségű relációs és nem kapcsolódó adatot őrizhetnek meg átalakítás vagy sémadefiníció nélkül. Ezek nagy mennyiségű kis írás kezelésére készültek alacsony késéssel, és nagy átviteli sebességre vannak optimalizálva.
Az alábbi táblázat a data lake-eket és az adattárházakat hasonlítja össze:
Problémák
- A séma vagy leíró metaadatok hiánya megnehezítheti az adatok használatát vagy lekérdezését.
- Az adatok szemantikai konzisztenciájának hiánya megnehezítheti az adatok elemzését, kivéve, ha a felhasználók magasan képzettek az adatelemzésben.
- Nehéz lehet garantálni a data lake-be kerülő adatok minőségét.
- Megfelelő irányítás nélkül a hozzáférés-vezérléssel és az adatvédelemmel kapcsolatos problémák problémák lehetnek. Milyen információk kerülnek a data lake-be, ki férhet hozzá az adatokhoz, és milyen célokra?
- Előfordulhat, hogy a data lake nem a legjobb módszer a már relációs adatok integrálására.
- A data lake önmagában nem biztosít integrált vagy holisztikus nézeteket a szervezeten belül.
- A data lake olyan adatok memóriaképévé válhat, amelyeket soha nem elemeznek vagy bányásznak elemzés céljából.
Technológiai lehetőségek
Data Lake-megoldások létrehozása az Azure által kínált alábbi szolgáltatások használatával:
- Az Azure HD Insight egy felügyelt, teljes spektrumú, nyílt forráskódú elemzési szolgáltatás a felhőben nagyvállalatok számára.
- Az Azure Data Lake Store egy rugalmas skálázású, Hadoop-kompatibilis adattár.
- Az Azure Data Lake Analytics egy igény szerinti elemzési feladatszolgáltatás, amely leegyszerűsíti a big data-elemzést.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Avijit Prasad | Felhőtanácsadó
További lépések
- Mi az az Azure HDInsight?
- Az Azure Data Lake Storage bemutatása
- Az Azure Data Lake Analytics dokumentációja
- Bevezetés az Azure Data Lake Storage használatába (képzési modul)
- Mi az a Data Lake?
Kapcsolódó erőforrások
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: