Az Azure Data Lake Storage migrálási irányelvei és mintái

Az adatokat, számítási feladatokat és alkalmazásokat az 1. generációs Azure Data Lake Storage-ból az Azure Data Lake Storage Gen2-be migrálhatja. Ez a cikk ismerteti az ajánlott migrálási megközelítést, és ismerteti a különböző migrálási mintákat, és hogy mikor érdemes használni azokat. A könnyebb olvasás érdekében ez a cikk a Gen1 kifejezést használja az 1. generációs Azure Data Lake Storage-ra, a Gen2 kifejezést pedig az Azure Data Lake Storage Gen2-re.

Feljegyzés

Az Azure Data Lake Storage Gen1 ki lett állítva. A nyugdíjazási bejelentést itt találja. A Data Lake Storage Gen1-erőforrások már nem érhetők el. Ha különleges segítségre van szüksége, forduljon hozzánk.

Az Azure Data Lake Storage Gen2 az Azure Blob Storage-ra épül, és a big data-elemzéshez dedikált képességek készletét biztosítja. A Data Lake Storage Gen2 egyesíti az Azure Data Lake Storage Gen1 funkcióit, például a fájlrendszer szemantikáját, a címtárat és a fájlszintű biztonságot, és skálázza az alacsony költségű, rétegzett tárterületet, a magas rendelkezésre állást/vészhelyreállítási képességeket az Azure Blob Storage-ból.

Feljegyzés

Mivel a Gen1 és a Gen2 különböző szolgáltatások, nincs helyszíni frissítési felület. Az Azure Portal használatával egyszerűsítheti az Azure Data Lake Storage gen1-ről Gen2-be való migrálását az Azure Portal használatával.

A Gen1-ről Gen2-be való migráláshoz az alábbi megközelítést javasoljuk.

1. lépés: Felkészültség felmérése

2. lépés: Felkészülés a migrálásra

3. lépés: Adatok és alkalmazásterhelések migrálása

4. lépés: Átállás Gen1-ről Gen2-be

1. lépés: Felkészültség felmérése

  1. Ismerje meg a Data Lake Storage Gen2 ajánlatát, annak előnyeit, költségeit és általános architektúráját.

  2. Hasonlítsa össze a Gen1 képességeit a Gen2 képességeivel.

  3. Tekintse át az ismert problémák listáját a funkcióbeli hiányosságok felméréséhez.

  4. A Gen2 támogatja a Blob Storage olyan funkcióit, mint a diagnosztikai naplózás, a hozzáférési szintek és a Blob Storage életciklus-kezelési szabályzatai. Ha érdekes a funkciók bármelyikének használata, tekintse át az aktuális támogatási szintet.

  5. Tekintse át az Azure ökoszisztéma-támogatásának jelenlegi állapotát, hogy a Gen2 minden olyan szolgáltatást támogatjon, amelytől a megoldások függnek.

2. lépés: Felkészülés a migrálásra

  1. Azonosítsa a migrálni kívánt adatkészleteket.

    Használja ki ezt a lehetőséget a már nem használt adathalmazok eltávolításához. Ha nem tervezi az összes adat egyszerre történő áttelepítését, ez idő alatt azonosíthatja a fázisokban migrálható logikai adatcsoportokat.

    Végezzen el egy idősödési elemzést (vagy hasonlót) a Gen1-fiókján, hogy megállapítsa, mely fájlok vagy mappák maradjanak a leltárban hosszú ideig, vagy esetleg elavulttá válnak.

  2. Határozza meg, hogy a migrálás milyen hatással lesz a vállalatra.

    Fontolja meg például, hogy megengedhet-e magának állásidőt a migrálás során. Ezek a szempontok segíthetnek a megfelelő migrálási minta azonosításában és a legmegfelelőbb eszközök kiválasztásában.

  3. Hozzon létre egy migrálási tervet.

    Ezeket a migrálási mintákat javasoljuk. Választhat ezek közül a minták közül, kombinálhatja őket, vagy saját egyéni mintát tervezhet.

3. lépés: Adatok, számítási feladatok és alkalmazások migrálása

Migrálhatja az adatokat, a számítási feladatokat és az alkalmazásokat a kívánt minta használatával. Javasoljuk, hogy fokozatosan ellenőrizze a forgatókönyveket.

  1. Hozzon létre egy tárfiókot , és engedélyezze a hierarchikus névtér funkciót.

  2. Az adatok migrálása.

  3. Konfigurálja a számítási feladatokban lévő szolgáltatásokat, hogy a Gen2-végpontra mutasson.

    HDInsight-fürtök esetén a tárfiók konfigurációs beállításait hozzáadhatja a %HADOOP_HOME%/conf/core-site.xml fájlhoz. Ha külső Hive-táblákat szeretne áttelepíteni Gen1-ből Gen2-be, akkor mindenképpen adja hozzá a tárfiók beállításait a %HIVE_CONF_DIR%/hive-site.xml fájlhoz is.

    Az egyes fájlok beállításait az Apache Ambari használatával módosíthatja. A tárfiók beállításainak megkereséséhez lásd : Hadoop Azure-támogatás: ABFS – Azure Data Lake Storage Gen2. Ez a példa a megosztott kulcs engedélyezéséhez használja a fs.azure.account.key beállítást:

    <property>
      <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
      <value>your-key-goes-here</value>
    </property>
    

    A HDInsight, az Azure Databricks és más Azure-szolgáltatások Gen2 használatára való konfigurálását segítő cikkekre mutató hivatkozásokért tekintse meg az Azure Data Lake Storage Gen2-t támogató Azure-szolgáltatásokat.

  4. Az alkalmazások frissítése Gen2 API-k használatára. Tekintse meg az alábbi útmutatókat:

Környezet Cikk
Azure Storage Explorer Könyvtárak és fájlok kezelése az Azure Storage Explorerrel az Azure Data Lake Storage Gen2-ben
.NET A .NET használata könyvtárak és fájlok kezeléséhez az Azure Data Lake Storage Gen2-ben
Java Címtárak és fájlok kezelése a Java használatával az Azure Data Lake Storage Gen2-ben
Python Címtárak és fájlok kezelése a Python használatával az Azure Data Lake Storage Gen2-ben
JavaScript (Node.js) A JavaScript SDK használata a Node.js-ben könyvtárak és fájlok kezeléséhez az Azure Data Lake Storage Gen2-ben
REST API Azure Data Lake Store REST API
  1. Frissítse a szkripteket a Data Lake Storage Gen2 PowerShell-parancsmagok és az Azure CLI-parancsok használatára.

  2. Keressen olyan URI-hivatkozásokat, amelyek a sztringet adl:// kódfájlokban vagy Databricks-jegyzetfüzetekben, Apache Hive HQL-fájlokban vagy a számítási feladatok részeként használt bármely más fájlban tartalmazzák. Cserélje le ezeket a hivatkozásokat az új tárfiók Gen2 formátumú URI-jára . Például: a Gen1 URI: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile válhat abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

  3. Konfigurálja a fiók biztonságát úgy, hogy tartalmazza az Azure-szerepköröket, a fájl- és mappaszintű biztonságot, valamint az Azure Storage-tűzfalakat és virtuális hálózatokat.

4. lépés: Átállás Gen1-ről Gen2-be

Miután biztos abban, hogy alkalmazásai és számítási feladatai stabilak a Gen2-ben, megkezdheti a Gen2 használatát az üzleti forgatókönyvek kielégítése érdekében. Kapcsolja ki a Gen1-en futó fennmaradó folyamatokat, és szerelje le Gen1-fiókját.

Gen1 és Gen2 képességek

Ez a táblázat a Gen1 képességeit hasonlítja össze a Gen2 képességeivel.

Terület Gen1 Gen2
Adatszervezés Hierarchikus névtér
Fájl- és mappatámogatás
Hierarchikus névtér
Tároló- és fájl- és mappatámogatás
Georedundancia LRS LRS, ZRS, GRS, RA-GRS
Hitelesítés Microsoft Entra által felügyelt identitás
Szolgáltatási elvek
Microsoft Entra által felügyelt identitás
Szolgáltatási elvek
Megosztott hozzáférési kulcs
Engedélyezés Felügyelet – Azure RBAC
Adatok – ACL-ek
Felügyelet – Azure RBAC
Adatok – ACL-ek, Azure RBAC
Titkosítás – Inaktív adatok Kiszolgálóoldal – Microsoft által felügyelt vagy ügyfél által felügyelt kulcsokkal Kiszolgálóoldal – Microsoft által felügyelt vagy ügyfél által felügyelt kulcsokkal
VNET-támogatás VNET-integráció Szolgáltatásvégpontok, privát végpontok
Fejlesztői felület REST, .NET, Java, Python, PowerShell, Azure CLI Általánosan elérhető – REST, .NET, Java, Python
Nyilvános előzetes verzió – JavaScript, PowerShell, Azure CLI
Erőforrásnaplók Klasszikus naplók
Integrált Azure Monitor
Klasszikus naplók – Általánosan elérhető
Integrált Azure Monitor – előzetes verzió
Ökoszisztéma HDInsight (3.6), Azure Databricks (3.1 vagy újabb), Azure Synapse Analytics, ADF HDInsight (3.6, 4.0), Azure Databricks (5.1 vagy újabb), Azure Synapse Analytics, ADF

Gen1–Gen2 minták

Válasszon ki egy migrálási mintát, majd szükség szerint módosítsa azt.

Migrálási minta Részletek
Emelés és váltás A legegyszerűbb minta. Ideális, ha az adatfolyamok állásidőt engedhetnek meg maguknak.
Növekményes másolás Hasonló az emeléshez és a váltáshoz, de kevesebb állásidővel. Ideális olyan nagy mennyiségű adathoz, amelyek másolása hosszabb időt vesz igénybe.
Kettős folyamat Ideális olyan folyamatokhoz, amelyek nem engedhetik meg maguknak az állásidőt.
Kétirányú szinkronizálás Hasonló a kettős folyamathoz, de összetettebb folyamatokhoz alkalmas, fázisosabb megközelítéssel.

Tekintsük meg közelebbről az egyes mintákat.

Emelési és váltási minta

Ez a legegyszerűbb minta.

  1. Az összes írás leállítása Gen1-be.

  2. Adatok áthelyezése gen1-ről Gen2-be. Az Azure Data Factoryt vagy az Azure Portalt javasoljuk. Az ACL-ek az adatokkal másolnak.

  3. A betöltési műveleteket és számítási feladatokat a Gen2-be irányíthatja.

  4. Gen1 leszerelése.

A Lift and Shift migrálási mintájában tekintse meg a lift- és műszakminta mintakódját.

Diagram of the lift and shift pattern.

A lift- és műszakminta használatának szempontjai

  • Átállás Gen1-ről Gen2-be az összes számítási feladathoz egyszerre.

  • Állásidőre számíthat a migrálás és az átállási időszak során.

  • Ideális olyan folyamatokhoz, amelyek állásidőt engedhetnek meg maguknak, és az összes alkalmazás egyszerre frissíthető.

Tipp.

Fontolja meg az Azure Portal használatát az állásidő lerövidítéséhez és a migrálás elvégzéséhez szükséges lépések számának csökkentéséhez.

Növekményes másolási minta

  1. Kezdje el áthelyezni az adatokat Gen1-ből Gen2-be. Az Azure Data Factoryt javasoljuk. Az ACL-ek az adatokkal másolnak.

  2. Új adatok növekményes másolása gen1-ből.

  3. Az összes adat másolása után állítsa le az összes írást a Gen1-be, és a számítási feladatokat a Gen2-be irányítsa.

  4. Gen1 leszerelése.

Tekintse meg a növekményes másolási mintához tartozó mintakódot a növekményes másolás migrálási mintájában.

Diagram of the incremental copy pattern.

A növekményes másolási minta használatának szempontjai

  • Átállás Gen1-ről Gen2-be az összes számítási feladathoz egyszerre.

  • Csak az átállási időszakban várjon állásidőt.

  • Ideális olyan folyamatokhoz, ahol az összes alkalmazás egyszerre frissült, de az adatmásolás több időt igényel.

Kettős folyamatminta

  1. Adatok áthelyezése gen1-ről Gen2-be. Az Azure Data Factoryt javasoljuk. Az ACL-ek az adatokkal másolnak.

  2. Új adatok betöltése gen1-be és Gen2-be is.

  3. A számítási feladatokat a Gen2-be irányíthatja.

  4. Állítsa le az 1. generációs összes írást, majd szerelje le a Gen1-et.

Tekintse meg a kettős folyamat mintájának mintakódját a Kettős folyamat migrálási mintájában.

Diagram of the dual pipeline pattern.

A kettős folyamatminta használatának szempontjai

  • A Gen1 és Gen2 folyamatok egymás mellett futnak.

  • Támogatja a nulla állásidőt.

  • Ideális olyan helyzetekben, amikor a számítási feladatok és alkalmazások nem engedhetik meg maguknak az állásidőt, és mindkét tárfiókba betölthetők.

Kétirányú szinkronizálási minta

  1. Kétirányú replikáció beállítása gen1 és Gen2 között. A WanDisco használatát javasoljuk. A meglévő adatokhoz kínál javítási funkciót.

  2. Ha minden lépés befejeződött, állítsa le az összes írást gen1-be, és kapcsolja ki a kétirányú replikációt.

  3. Gen1 leszerelése.

Tekintse meg a kétirányú szinkronizálási mintához tartozó mintakódot a kétirányú szinkronizálás migrálási mintájában.

Diagram of the bidirectional pattern.

A kétirányú szinkronizálási minta használatának szempontjai

  • Olyan összetett forgatókönyvekhez ideális, amelyek nagy számú folyamatot és függőséget foglalnak magukban, ahol a fázisos megközelítés több értelmet adhat.

  • A migrálási erőfeszítések magasak, de egymás mellett támogatják az 1. generációs és a Gen2-t.

Következő lépések

Lásd még