Az Azure Data Lake Storage Gen2 bemutatása
Az Azure Data Lake Storage Gen2 az Azure Blob Storage-ra épülő big data-elemzési funkciók készlete.
A Data Lake Storage Gen2 konvergálja az 1. generációs Azure Data Lake Storage képességeit az Azure Blob Storage-tal. A Data Lake Storage Gen2 például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.
Nagyvállalati big data-elemzésekhez tervezve
A Data Lake Storage Gen2 az Azure Storage-t teszi az azure-beli nagyvállalati adattavak létrehozásának alapjaként. A Data Lake Storage Gen2 az elejétől kezdve több petabájtnyi információ kiszolgálására és több száz gigabájtos átviteli sebesség fenntartására lett tervezve, és lehetővé teszi nagy mennyiségű adat egyszerű kezelését.
A Data Lake Storage Gen2 alapvető része egy hierarchikus névtér hozzáadása a Blob Storage-hoz. A hierarchikus névtér az objektumokat/fájlokat címtárak hierarchiájába rendezi a hatékony adathozzáférés érdekében. Egy általános objektumtároló-elnevezési konvenció perjeleket használ a névben a hierarchikus könyvtárstruktúra utánzásához. Ez a struktúra a Data Lake Storage Gen2-vel válik valóssá. Az olyan műveletek, mint a címtár átnevezése vagy törlése, egyetlen atomi metaadat-műveletté válnak a címtárban. Nem kell számba vennie és feldolgoznia az összes olyan objektumot, amely a címtár névelőtagját osztja meg.
A Data Lake Storage Gen2 a Blob Storage-ra épül, és az alábbi módokon javítja a teljesítményt, a felügyeletet és a biztonságot:
A teljesítmény optimalizálva van, mert az elemzés előfeltételeként nem kell adatokat másolnia vagy átalakítania. A Blob Storage egybesimított névteréhez képest a hierarchikus névtér jelentősen javítja a címtárkezelési műveletek teljesítményét, ami javítja a feladat általános teljesítményét.
A felügyelet egyszerűbb, mert könyvtárakon és alkönyvtárakon keresztül rendszerezheti és módosíthatja a fájlokat.
A biztonság kikényszeríthető, mert POSIX-engedélyeket határozhat meg a könyvtárakhoz vagy az egyes fájlokhoz.
Emellett a Data Lake Storage Gen2 nagyon költséghatékony, mivel az alacsony költségű Azure Blob Storage-ra épül. A további funkciók tovább csökkentik a big data-elemzések Azure-beli futtatásának teljes bekerülési költségét.
A Data Lake Storage Gen2 főbb jellemzői
Hadoop-kompatibilis hozzáférés: A Data Lake Storage Gen2 segítségével ugyanúgy kezelheti és érheti el az adatokat, mint a Hadoop elosztott fájlrendszer (HDFS) esetében. Az új ABFS-illesztőprogram (amely az adatok eléréséhez használatos) az összes Apache Hadoop-környezetben elérhető. Ilyen környezetek például az Azure HDInsight, az Azure Databricks és az Azure Synapse Analytics.
A POSIX-engedélyek szuperhalmaza: A Data Lake Gen2 biztonsági modellje támogatja az ACL- és POSIX-engedélyeket, valamint a Data Lake Storage Gen2-re jellemző további részletességet. A beállítások konfigurálhatók a Storage Exploreren keresztül vagy olyan keretrendszereken keresztül, mint a Hive és a Spark.
Költséghatékony: A Data Lake Storage Gen2 alacsony költségű tárolási kapacitást és tranzakciókat kínál. Az olyan funkciók, mint az Azure Blob Storage életciklusa , adatáttűnésként optimalizálják a költségeket az életciklusuk során.
Optimalizált illesztőprogram: Az ABFS-illesztő kifejezetten big data-elemzésekhez van optimalizálva . A megfelelő REST API-k a végponton
dfs.core.windows.netkeresztül jelennek meg.
Méretezhetőség
Az Azure Storage méretezhető, függetlenül attól, hogy a Data Lake Storage Gen2 vagy a Blob Storage interfészeken keresztül fér hozzá. Képes sok exabájtnyi adat tárolására és kiszolgálására. Ez a tárterület gigabit/másodpercben (Gbps) mért átviteli sebességgel érhető el, magas bemeneti/kimeneti műveletek másodpercenként (IOPS) mellett. A feldolgozás kérelemenként közel állandó késéssel történik, amelyek a szolgáltatás, a fiók és a fájl szintjén vannak mérve.
Költséghatékonyság
Mivel a Data Lake Storage Gen2 az Azure Blob Storage-ra épül, a tárolási kapacitás és a tranzakciós költségek alacsonyabbak. Más felhőalapú tárolási szolgáltatásoktól eltérően az elemzés előtt nem kell áthelyeznie vagy átalakítania az adatokat. A díjszabással kapcsolatos további információkért lásd az Azure Storage díjszabását.
Emellett az olyan funkciók, mint a hierarchikus névtér jelentősen javítják számos elemzési feladat általános teljesítményét. Ez a teljesítménybeli javulás azt jelenti, hogy kevesebb számítási teljesítményre van szükség ugyanannak az adatmennyiségnek a feldolgozásához, ami alacsonyabb teljes bekerülési költséget (TCO) eredményez a teljes körű elemzési feladathoz.
Egy szolgáltatás, több fogalom
Mivel a Data Lake Storage Gen2 az Azure Blob Storage-ra épül, több fogalom is leírhatja ugyanazokat a megosztott dolgokat.
Az alábbiakban a különböző fogalmakban ismertetett egyenértékű entitásokat ismertetjük. Ha másként nincs megadva, ezek az entitások közvetlenül szinonimák:
| Fogalom | Legfelső szintű szervezet | Alacsonyabb szintű szervezet | Adattároló |
|---|---|---|---|
| Blobok – Általános célú objektumtárolás | Tároló | Virtuális könyvtár (csak SDK – nem biztosít atomi manipulációt) | Blob |
| Azure Data Lake Storage Gen2 – Analytics Storage | Tároló | Címtár | Fájl |
Támogatott Blob Storage-funkciók
A Blob Storage olyan funkciói, mint a diagnosztikai naplózás, a hozzáférési szintek és a Blob Storage életciklus-felügyeleti szabályzatai elérhetők a fiókjában. A Blob Storage legtöbb funkciója teljes mértékben támogatott, de egyes funkciók csak az előzetes verzió szintjén támogatottak, vagy még nem támogatottak.
Ha meg szeretné tudni, hogy az egyes Blob Storage-szolgáltatások hogyan támogatottak a Data Lake Storage Gen2-ben, tekintse meg az Azure Storage-fiókok Blob Storage szolgáltatástámogatását.
Támogatott Azure-szolgáltatásintegrációk
A Data Lake Storage Gen2 számos Azure-szolgáltatást támogat. Ezekkel adatok betöltésére, elemzésekre és vizuális ábrázolások létrehozására használhatja őket. A támogatott Azure-szolgáltatások listáját az Azure Data Lake Storage Gen2-t támogató Azure-szolgáltatásokban találja.
Támogatott nyílt forráskódú platformok
Számos nyílt forráskódú platform támogatja a Data Lake Storage Gen2-t. A teljes listát az Azure Data Lake Storage Gen2-t támogató nyílt forráskódú platformokon találja.