Přesun dat do úložiště objektů blob v Azure

Pokud pracovní postup zahrnuje přesun dat do úložiště objektů blob v Azure, ujistěte se, že používáte efektivní strategii. Můžete buď předem načíst data do nového kontejneru objektů blob, než je definujete jako cíl úložiště, nebo přidat kontejner a pak zkopírovat data pomocí Azure HPC Cache.

Tento článek vysvětluje nejlepší způsoby, jak přesunout data do úložiště objektů blob pro použití s Azure HPC Cache.

Tip

Tento článek se nevztahuje na úložiště objektů blob připojené k systému souborů NFS (cíle úložiště ADLS-NFS). K naplnění kontejneru objektů blob ADLS-NFS můžete použít libovolnou metodu založenou na systému souborů NFS a až HPC Cache. Další informace najdete v souboru Pre-load data with NFS protocol (Před načtení dat pomocí protokolu NFS).

Mějte na paměti tato fakta:

  • Azure HPC Cache používá specializovaný formát úložiště k uspořádání dat v úložišti objektů blob. To je důvod, proč cíl úložiště objektů blob musí být nový prázdný kontejner nebo kontejner objektů blob, který se dříve používal Azure HPC Cache dat.

  • Kopírování dat přes Azure HPC Cache do cíle back-end úložiště je efektivnější, pokud používáte více klientů a paralelních operací. Jednoduchý příkaz pro kopírování z jednoho klienta přesune data pomalu.

K dispozici je nástroj založený na Pythonu, který načítá obsah do kontejneru úložiště objektů blob. Další informace najdete v části Předběžné načtení dat v úložišti objektů blob.

Pokud nechcete používat nástroj pro načítání nebo pokud chcete přidat obsah do existujícího cíle úložiště, postupujte podle tipů pro ingestování paralelních dat v části Kopírování dat prostřednictvím Azure HPC Cache.

Předběžné načtení dat v úložišti objektů blob pomocí CLFSLoad

Pomocí nástroje Avere CLFSLoad můžete zkopírovat data do nového kontejneru úložiště objektů blob, než je přidáte jako cíl úložiště. Tento nástroj běží v jednom linuxovém systému a zapisuje data ve speciálním formátu potřebném pro Azure HPC Cache. CLFSLoad je nejúčinnější způsob, jak naplnit kontejner úložiště objektů blob pro použití s mezipamětí.

Nástroj Avere CLFSLoad je k dispozici na žádost vašeho Azure HPC Cache týmu. Požádejte o to tým nebo otevřete lístek podpory a požádejte o pomoc.

Tato možnost funguje jenom s novými prázdnými kontejnery. Před použitím Avere CLFSLoad vytvořte kontejner.

Podrobné informace jsou součástí distribuce Avere CLFSLoad, která je k dispozici na vyžádání od Azure HPC Cache týmu.

Obecný přehled tohoto procesu:

  1. Příprava linuxového systému (virtuálního nebo fyzického) s Pythonem verze 3.6 nebo novější Pro lepší výkon se doporučuje Python 3.7.
  2. Nainstalujte Avere-CLFSLoad v systému Linux.
  3. Spusťte přenos z příkazového řádku Linuxu.

Nástroj Avere CLFSLoad potřebuje následující informace:

  • ID účtu úložiště, které obsahuje váš kontejner úložiště objektů blob
  • Název prázdného kontejneru úložiště objektů blob
  • Token sdíleného přístupového podpisu (SAS), který nástroji umožňuje zapisovat do kontejneru.
  • Místní cesta ke zdroji dat – buď místní adresář obsahující data ke kopírování, nebo místní cesta k připojenému vzdálenému systému s daty

Kopírování dat přes Azure HPC Cache

Pokud nechcete používat nástroj Avere CLFSLoad nebo pokud chcete do existujícího cíle úložiště objektů blob přidat velké množství dat, můžete je zkopírovat prostřednictvím mezipaměti. Azure HPC Cache je navržený tak, aby obsluhul více klientů současně, takže pokud chcete kopírovat data prostřednictvím mezipaměti, měli byste použít paralelní zápisy z více klientů.

Diagram znázorňující přesun dat s více klienty s více vlákny: Ikona místního hardwarového úložiště má vlevo nahoře několik šipek, které z něj přicházejí. Šipky odkazovat na čtyři klientské počítače. Z každého klientského počítače míří tři šipky směrem k Azure HPC Cache. Z následujícího Azure HPC Cache několik šipek ukazuje na úložiště objektů blob.

Příkazy nebo, které obvykle používáte k přenosu dat z jednoho úložného systému do jiného, jsou procesy s jedním vláknem, které kopírují pouze jeden cp copy soubor najednou. To znamená, že souborový server ingestuje najednou jenom jeden soubor – to je plýtvání prostředky mezipaměti.

Tato část vysvětluje strategie pro vytvoření systému kopírování souborů s více klienty s více vlákny pro přesun dat do úložiště objektů blob pomocí Azure HPC Cache. Vysvětluje koncepty přenosu souborů a rozhodovací body, které lze použít k efektivnímu kopírování dat pomocí více klientů a jednoduchých příkazů pro kopírování.

Vysvětluje také některé nástroje, které vám můžou pomoct. Pomocí nástroje je možné částečně automatizovat proces dělení datové sady do msrsync kbelíků a pomocí příkazů rsync. Skript parallelcp je další nástroj, který čte zdrojový adresář a automaticky vydává příkazy pro kopírování.

Strategické plánování

Při sestavování strategie paralelního kopírování dat byste měli rozumět kompromisům z oblasti velikosti souboru, počtu souborů a hloubky adresáře.

  • Pokud jsou soubory malé, metrika, která vás zajímá, jsou soubory za sekundu.
  • Pokud jsou soubory velké (10MiBi nebo vyšší), metrika zájmu je bajty za sekundu.

Každý proces kopírování má rychlost propustnosti a přenosy souborů, které je možné změřit načasováním délky příkazu pro kopírování a zoceněním velikosti souboru a počtu souborů. Vysvětlení, jak měřit sazby, je nad rámec tohoto dokumentu, ale je nezbytné pochopit, jestli budete řešit malé nebo velké soubory.

Mezi strategie paralelního ingestování dat s Azure HPC Cache patří:

  • Ruční kopírování – V klientovi můžete ručně vytvořit kopii s více vlákny tak, že na pozadí na pozadí s předdefinovanými sadami souborů nebo cest můžete spustit více příkazů kopírování najednou. Podrobnosti Azure HPC Cache v části ingestování dat – metoda ručního kopírování.

  • Částečně automatizované kopírování pomocí nástroje je nástroj msrsync - msrsync obálky, který spouští více paralelních rsync procesů. Podrobnosti najdete v Azure HPC Cache ingestování dat – metoda msrsync.

  • Skriptované kopírování pomocí – Zjistěte, jak vytvořit a spustit skript paralelního kopírování parallelcp Azure HPC Cache ingestovánídat – metoda skriptu paralelního kopírování.

Další kroky

Po nastavení úložiště se dozvíte, jak mohou klienti připojit mezipaměť.