Pokyny a vzory migrace služby Azure Data Lake Storage

Data, úlohy a aplikace můžete migrovat z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Tento článek vysvětluje doporučený přístup k migraci a popisuje různé vzory migrace a kdy je použít. Pro snadnější čtení tento článek používá termín Gen1 k odkazování na Azure Data Lake Storage Gen1 a termín Gen2 , který odkazuje na Azure Data Lake Storage Gen2.

Poznámka:

Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné. Pokud potřebujete zvláštní pomoc, kontaktujte nás.

Azure Data Lake Storage Gen2 je založená na azure Blob Storage a poskytuje sadu funkcí vyhrazených pro analýzy velkých objemů dat. Data Lake Storage Gen2 kombinuje funkce z Azure Data Lake Storage Gen1, jako jsou sémantika systému souborů, adresář a zabezpečení na úrovni souborů a škálování s nízkými náklady, vrstveným úložištěm, vysokou dostupností a zotavením po havárii z Azure Blob Storage.

Poznámka:

Vzhledem k tomu, že Gen1 a Gen2 jsou různé služby, neexistuje žádné místní prostředí upgradu. Pokud chcete zjednodušit migraci na Gen2 pomocí webu Azure Portal, přečtěte si téma Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.

Pokud chcete migrovat z Gen1 na Gen2, doporučujeme následující přístup.

Krok 1: Posouzení připravenosti

Krok 2: Příprava na migraci

Krok 3: Migrace úloh dat a aplikací

Krok 4: Přímá migrace z Gen1 na Gen2

Krok 1: Posouzení připravenosti

  1. Seznamte se s nabídkou Data Lake Storage Gen2, jejími výhodami, náklady a obecnou architekturou.

  2. Porovnejte možnosti Gen1 s možnostmi Gen2.

  3. Projděte si seznam známých problémů a vyhodnoťte případné mezery ve funkčnosti.

  4. Gen2 podporuje funkce úložiště objektů blob, jako jsou protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu úložiště objektů blob. Pokud vás zajímá používání některé z těchto funkcí, projděte si aktuální úroveň podpory.

  5. Projděte si aktuální stav podpory ekosystému Azure a ujistěte se, že Gen2 podporuje všechny služby, na které vaše řešení závisejí.

Krok 2: Příprava na migraci

  1. Identifikujte datové sady, které budete migrovat.

    Využijte tuto příležitost k vyčištění datových sad, které už nepoužíváte. Pokud neplánujete migrovat všechna data najednou, zkuste tuto dobu identifikovat logické skupiny dat, které můžete migrovat ve fázích.

    Proveďte analýzu stárnutí (nebo podobné) na svém účtu Gen1, abyste zjistili, které soubory nebo složky zůstanou v inventáři dlouho nebo které jsou možná zastaralé.

  2. Určete dopad migrace na vaši firmu.

    Zvažte například, jestli si během migrace můžete dovolit výpadky. Tyto aspekty vám můžou pomoct identifikovat vhodný vzor migrace a zvolit nejvhodnější nástroje.

  3. Vytvořte plán migrace.

    Tyto vzory migrace doporučujeme. Můžete si vybrat jeden z těchto vzorů, zkombinovat je dohromady nebo navrhnout vlastní vzor.

Krok 3: Migrace dat, úloh a aplikací

Migrujte data, úlohy a aplikace pomocí modelu, který dáváte přednost. Doporučujeme ověřovat scénáře přírůstkově.

  1. Vytvořte účet úložiště a povolte funkci hierarchického oboru názvů.

  2. Migrace dat

  3. Nakonfigurujte služby ve vašich úlohách tak, aby odkazovali na koncový bod Gen2.

    U clusterů HDInsight můžete do souboru %HADOOP_HOME%/conf/core-site.xml přidat nastavení konfigurace účtu úložiště. Pokud plánujete migrovat externí tabulky Hive z Gen1 na Gen2, nezapomeňte do souboru %HIVE_CONF_DIR%/hive-site.xml přidat i nastavení účtu úložiště.

    Nastavení jednotlivých souborů můžete upravit pomocí Apache Ambari. Informace o nastavení účtu úložiště najdete v tématu Podpora Hadoop Azure: ABFS – Azure Data Lake Storage Gen2. Tento příklad používá fs.azure.account.key nastavení k povolení autorizace sdíleného klíče:

    <property>
      <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
      <value>your-key-goes-here</value>
    </property>
    

    Odkazy na články, které vám pomůžou nakonfigurovat HDInsight, Azure Databricks a další služby Azure pro použití Gen2, najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.

  4. Aktualizujte aplikace tak, aby používaly rozhraní API Gen2. Projděte si tyto příručky:

Prostředí Článek
Azure Storage Explorer Použití Průzkumník služby Azure Storage ke správě adresářů a souborů v Azure Data Lake Storage Gen2
.NET Použití .NET ke správě adresářů a souborů v Azure Data Lake Storage Gen2
Java Použití Javy ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
Python Použití Pythonu ke správě adresářů a souborů v Azure Data Lake Storage Gen2
JavaScript (Node.js) Použití sady JavaScript SDK v Node.js ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
REST API Azure Data Lake Store REST API
  1. Aktualizujte skripty tak, aby používaly rutiny PowerShellu Data Lake Storage Gen2 a příkazy Azure CLI.

  2. Vyhledejte odkazy na identifikátor URI, které obsahují řetězec adl:// v souborech kódu nebo v poznámkových blocích Databricks, souborech Apache Hive HQL nebo jiných souborech používaných jako součást vašich úloh. Tyto odkazy nahraďte identifikátorem URI ve formátu Gen2 nového účtu úložiště. Například: Identifikátor URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile může se stát abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

  3. Nakonfigurujte zabezpečení vašeho účtu tak, aby zahrnovalo role Azure, zabezpečení na úrovni souborů a složek a brány firewall služby Azure Storage a virtuální sítě.

Krok 4: Přímá migrace z Gen1 na Gen2

Jakmile budete mít jistotu, že vaše aplikace a úlohy jsou v Gen2 stabilní, můžete začít používat Gen2, abyste vyhověli obchodním scénářům. Vypněte všechny zbývající kanály, které běží na Gen1, a vyřaďte z provozu váš účet Gen1.

Možnosti Gen1 a Gen2

Tato tabulka porovnává možnosti Gen1 s gen2.

Plocha Gen1 Gen2
Organizace dat Hierarchický obor názvů
Podpora souborů a složek
Hierarchický obor názvů
Podpora kontejnerů, souborů a složek
Geografická redundance LRS LRS, ZRS, GRS, RA-GRS
Ověřování Spravovaná identita Microsoft Entra
Instanční objekty
Spravovaná identita Microsoft Entra
Instanční objekty
Sdílený přístupový klíč
Autorizace Správa – Azure RBAC
Data – seznamy ACL
Správa – Azure RBAC
Data – seznamy ACL, Azure RBAC
Šifrování – neaktivní uložená data Serverová strana – s klíči spravovanými Microsoftem nebo klíči spravovanými zákazníkem Serverová strana – s klíči spravovanými Microsoftem nebo klíči spravovanými zákazníkem
Podpora virtuálních sítí Integrace virtuální sítě Koncové body služby, privátní koncové body
Prostředí vývojáře REST, .NET, Java, Python, PowerShell, Azure CLI Obecně dostupné – REST, .NET, Java, Python
Public Preview – JavaScript, PowerShell, Azure CLI
Protokoly prostředků Klasické protokoly
Integrované služby Azure Monitor
Klasické protokoly – Obecně dostupné
Integrované služby Azure Monitor – Preview
Ekosystém HDInsight (3.6), Azure Databricks (3.1 a novější), Azure Synapse Analytics, ADF HDInsight (3.6, 4.0), Azure Databricks (5.1 a novější), Azure Synapse Analytics, ADF

Vzory Gen1 až Gen2

Zvolte vzor migrace a podle potřeby ho upravte.

Model migrace Detaily
Lift and Shift Nejjednodušší vzor. Ideální, pokud si datové kanály můžou dovolit výpadek.
Přírůstková kopie Podobá se metodě lift and shift, ale s menším výpadkem. Ideální pro velké objemy dat, která kopírování trvá déle.
Duální kanál Ideální pro kanály, které si nemůžou dovolit žádné výpadky.
Obousměrná synchronizace Podobá se duálnímu kanálu, ale s více fázovaným přístupem, který je vhodný pro složitější kanály.

Pojďme se podrobněji podívat na jednotlivé vzory.

Vzor metodou "lift and shift"

Toto je nejjednodušší vzor.

  1. Zastavte všechny zápisy do Gen1.

  2. Přesun dat z Gen1 na Gen2 Službu Azure Data Factory nebo azure Portal doporučujeme použít. Seznamy ACL zkopírují data.

  3. Nasměrování operací ingestování a úloh na Gen2

  4. Vyřazení z provozu Gen1

Podívejte se na vzorový kód pro metodu "lift and shift" v ukázce migrace "Lift and Shift".

Diagram of the lift and shift pattern.

Důležité informace o používání modelu "lift and shift"

  • Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou

  • Během migrace a období přímé migrace můžete očekávat výpadek.

  • Ideální pro kanály, které si můžou dovolit výpadek a všechny aplikace je možné upgradovat najednou.

Tip

Zvažte použití webu Azure Portal ke zkrácení výpadků a snížení počtu kroků potřebných k dokončení migrace.

Vzor přírůstkového kopírování

  1. Začněte přesouvat data z Gen1 na Gen2. Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.

  2. Přírůstkové kopírování nových dat z Gen1

  3. Po zkopírování všech dat zastavte všechny zápisy do Gen1 a nasměrujte úlohy na Gen2.

  4. Vyřazení z provozu Gen1

Podívejte se na náš ukázkový kód pro vzor přírůstkového kopírování v ukázce přírůstkové migrace kopírování.

Diagram of the incremental copy pattern.

Důležité informace o používání vzoru přírůstkového kopírování

  • Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou

  • Očekáváme výpadek pouze během přímé doby.

  • Ideální pro kanály, kde se všechny aplikace upgradovaly najednou, ale kopírování dat vyžaduje více času.

Model duálního kanálu

  1. Přesun dat z Gen1 na Gen2 Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.

  2. Ingestování nových dat pro Gen1 i Gen2

  3. Nasměrovat úlohy na Gen2

  4. Zastavte všechny zápisy do Gen1 a pak vyřaďte Gen1 z provozu.

Podívejte se na náš ukázkový kód pro vzor duálního kanálu v ukázce migrace duálního kanálu.

Diagram of the dual pipeline pattern.

Důležité informace o používání vzoru duálního kanálu

  • Kanály Gen1 a Gen2 běží souběžně.

  • Podporuje nulový výpadek.

  • Ideální v situacích, kdy si vaše úlohy a aplikace nemohou dovolit žádné výpadky a můžete ingestovat do obou účtů úložiště.

Vzor obousměrné synchronizace

  1. Nastavte obousměrnou replikaci mezi Gen1 a Gen2. Doporučujeme WanDisco. Nabízí funkci opravy pro existující data.

  2. Po dokončení všech přesunů zastavte všechny zápisy do Gen1 a vypněte obousměrnou replikaci.

  3. Vyřazení z provozu Gen1

Podívejte se na vzor obousměrné synchronizace v ukázce migrace obousměrné synchronizace.

Diagram of the bidirectional pattern.

Důležité informace o používání obousměrného vzoru synchronizace

  • Ideální pro složité scénáře, které zahrnují velký počet kanálů a závislostí, kde by fázovaný přístup mohl dávat větší smysl.

  • Migrace je vysoká, ale poskytuje souběžnou podporu pro Gen1 a Gen2.

Další kroky

Viz také