Az Azure Data Lake Storage Gen2 bemutatása

Azure Data Lake Storage Gen2 a big data-elemzéshez kapcsolódó képességek készlete, amely Azure Blob Storage épül.

Data Lake Storage Gen2 Azure Blob Storage Azure Data Lake Storage Gen1 képességeit konvergálja. A Data Lake Storage Gen2 például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.

Data Lake Storage Gen2 teszi az Azure Storage-ot az Azure-beli vállalati adattavak létrehozásának alapjaként. A kezdetektől fogva több petabájtnyi információ kiszolgálására tervezték, miközben több száz gigabites átviteli sebességet tart fenn, Data Lake Storage Gen2 lehetővé teszi nagy mennyiségű adat egyszerű kezelését.

Mi az a Data Lake?

A data lake egy egyetlen, központosított adattár, ahol az összes adatot tárolhatja, strukturált és strukturálatlan is. A data lake lehetővé teszi, hogy a szervezet gyorsan és egyszerűbben tárolja, érje el és elemezze az adatok széles körét egyetlen helyen. A data lake-eknek nem kell megfelelniük az adatoknak ahhoz, hogy illeszkedjenek egy meglévő struktúrához. Ehelyett tárolhatja az adatokat nyers vagy natív formátumban, általában fájlokként vagy nagy bináris objektumokként (blobokként).

Azure Data Lake Storage egy felhőalapú, nagyvállalati data lake-megoldás. Úgy van kialakítva, hogy nagy mennyiségű adatot tároljon bármilyen formátumban, és hogy megkönnyítse a big data elemzési számítási feladatokat. A használatával bármilyen típusú és betöltési sebességet használó adatokat rögzíthet egyetlen helyen, így a különböző keretrendszerek használatával könnyen elérheti és elemezheti az adatokat.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 az Azure Data Lake Storage megoldásának jelenlegi megvalósítására utal. Az előző implementáció, Azure Data Lake Storage Gen1 2024. február 29-én megszűnik.

A Data Lake Storage Gen1 ellentétben a Data Lake Storage Gen2 nem dedikált szolgáltatás vagy fióktípus. Ehelyett az Azure Storage-fiók Blob Storage szolgáltatásával használható képességek halmazaként van implementálva. Ezeket a képességeket a hierarchikus névtérbeállítás engedélyezésével oldhatja fel.

Data Lake Storage Gen2 a következő képességeket tartalmazza.

✓ Hadoop-kompatibilis hozzáférés

✓ Hierarchikus könyvtárstruktúra

✓ Optimalizált költség és teljesítmény

✓ Finomabb szemcsés biztonsági modell

✓ Hatalmas méretezhetőség

Hadoop-kompatibilis hozzáférés

Azure Data Lake Storage Gen2 elsősorban a Hadoop és az Apache Hadoop elosztott fájlrendszert (HDFS) adatelérési rétegként használó keretrendszerek kezelésére tervezték. A Hadoop-disztribúciók közé tartozik az Azure Blob File System (ABFS) illesztőprogramja, amely számos alkalmazás és keretrendszer számára teszi lehetővé Azure Blob Storage adatok közvetlen elérését. Az ABFS-illesztő kifejezetten big data-elemzésekhez van optimalizálva . A megfelelő REST API-k a végponton dfs.core.windows.netkeresztül jelennek meg.

A HDFS-t adatelérési rétegként használó adatelemzési keretrendszerek közvetlenül hozzáférhetnek Azure Data Lake Storage Gen2 adatokhoz az ABFS-ben. Az Apache Spark elemzési motorja és a Presto SQL-lekérdezési motor példák ilyen keretrendszerekre.

A támogatott szolgáltatásokról és platformokról további információt a Azure Data Lake Storage Gen2 támogató Azure-szolgáltatások és a Azure Data Lake Storage Gen2 támogató nyílt forráskódú platformok című témakörben talál.

Hierarchikus könyvtárstruktúra

A hierarchikus névtér egy kulcsfontosságú funkció, amely lehetővé teszi, hogy a Azure Data Lake Storage Gen2 nagy teljesítményű adathozzáférést biztosítson objektumtárolási méretekben és áron. Ezzel a funkcióval a tárfiókban lévő összes objektumot és fájlt címtárak és beágyazott alkönyvtárak hierarchiájába rendezheti. Más szóval a Azure Data Lake Storage Gen2 adatai ugyanúgy vannak rendszerezve, mint a fájlok a számítógépen.

Az olyan műveletek, mint a címtár átnevezése vagy törlése, egyetlen atomi metaadat-műveletté válnak a címtárban. Nem szükséges enumerálni és feldolgozni az összes olyan objektumot, amely osztozik a könyvtár névelőtagján.

Optimalizált költség és teljesítmény

Azure Data Lake Storage Gen2 ára Azure Blob Storage. Olyan Azure Blob Storage képességekre épül, mint az automatizált életciklus-szabályzatkezelés és az objektumszintű rétegzés a big data tárolási költségek kezeléséhez.

A teljesítmény optimalizálva van, mert nem kell adatokat másolnia vagy átalakítania az elemzés előfeltételeként. A Azure Data Lake Storage hierarchikus névtérképessége hatékony hozzáférést és navigációt tesz lehetővé. Ez az architektúra azt jelenti, hogy az adatfeldolgozás kevesebb számítási erőforrást igényel, ami csökkenti az adatokhoz való hozzáférés sebességét és költségeit.

Finomabb szemcsés biztonsági modell

A Azure Data Lake Storage Gen2 hozzáférés-vezérlési modell támogatja az Azure szerepköralapú hozzáférés-vezérlést (Azure RBAC) és a PORTABLE Operating System Interface for UNIX (POSIX) hozzáférés-vezérlési listákat (ACL-eket). Van néhány további biztonsági beállítás is, amelyek a Azure Data Lake Storage Gen2 vonatkoznak. Az engedélyeket a címtár szintjén vagy a fájl szintjén állíthatja be. Az összes tárolt adat titkosítva van inaktív állapotban a Microsoft által felügyelt vagy az ügyfél által felügyelt titkosítási kulcsok használatával.

Hatalmas méretezhetőség

Azure Data Lake Storage Gen2 hatalmas tárterületet kínál, és számos adattípust fogad el elemzéshez. Nem szab korlátozásokat a fiókméretekre, a fájlméretekre vagy a data lake-ben tárolható adatok mennyiségére. Az egyes fájlok mérete néhány kilobájttól néhány petabájtig terjedhet. A feldolgozás kérésenként közel állandó késéssel történik, amelyek a szolgáltatás, a fiók és a fájl szintjén vannak mérve.

Ez a kialakítás azt jelenti, hogy Azure Data Lake Storage Gen2 egyszerűen és gyorsan felskálázhatók a legigényesebb számítási feladatokhoz. Az igény csökkenése esetén is ugyanolyan egyszerűen leskálázható.

Beépített Azure Blob Storage

A betöltött adatok blobként maradnak a tárfiókban. A blobokat kezelő szolgáltatás a Azure Blob Storage szolgáltatás. Data Lake Storage Gen2 ismerteti a szolgáltatás képességeit vagy "fejlesztéseit", amelyek kielégítik a big data elemzési számítási feladatok igényeit.

Mivel ezek a képességek a Blob Storage-ra épülnek, a fiók számára elérhetők olyan funkciók, mint a diagnosztikai naplózás, a hozzáférési szintek és az életciklus-felügyeleti szabályzatok. A Blob Storage legtöbb funkciója teljes mértékben támogatott, de egyes funkciók csak az előzetes verzió szintjén támogatottak, és néhány még nem támogatott. A támogatási utasítások teljes listáját lásd: Blob Storage-funkciók támogatása az Azure Storage-fiókokban. Az egyes felsorolt funkciók állapota idővel megváltozik, mivel a támogatás folyamatosan bővül.

Dokumentáció és terminológia

A Azure Blob Storage tartalomjegyzék két tartalomszakaszt tartalmaz. A tartalom Data Lake Storage Gen2 szakasza ajánlott eljárásokat és útmutatást nyújt Data Lake Storage Gen2 képességek használatához. A tartalom Blob Storage szakasza útmutatást nyújt a Data Lake Storage Gen2 nem specifikus fiókfunkciókhoz.

A szakaszok között lépkedve némi terminológiai különbséget tapasztalhat. A Blob Storage dokumentációjában szereplő tartalom például a blob kifejezést fogja használni fájl helyett. A tárfiókba betöltött fájlok gyakorlatilag blobokká válnak a fiókjában. Ezért a kifejezés helyes. A blob kifejezés azonban zavart okozhat, ha a kifejezésfájlhoz van szokva. Megjelenik a tároló kifejezés is, amely egy fájlrendszerre hivatkozik. Ezeket a kifejezéseket szinonimának tekinti.

Lásd még