Share via


Adatok áthelyezése az Azure Blob Storage-ba

Ha a munkafolyamat magában foglalja az adatok Azure Blob Storage-ba való áthelyezését, győződjön meg arról, hogy hatékony stratégiát használ. Hozza létre a gyorsítótárat, adja hozzá a blobtárolót tároló tárolóként, majd másolja az adatokat az Azure HPC Cache használatával.

Ez a cikk bemutatja, hogyan helyezheti át az adatokat a blobtárolóba az Azure HPC Cache-hez való használatra.

Tipp.

Ez a cikk nem vonatkozik az NFS-hez csatlakoztatott blobtárolókra (ADLS-NFS storage-célok). Bármely NFS-alapú metódussal feltölthet egy ADLS-NFS-blobtárolót a HPC-gyorsítótárba való hozzáadás előtt vagy után. További információért olvassa el az adatok előzetes betöltését az NFS-protokollal .

Tartsa szem előtt ezeket a tényeket:

  • Az Azure HPC Cache speciális tárolási formátumot használ az adatok blobtárolóban való rendszerezéséhez. Ezért a blobtároló célhelyének egy új, üres tárolónak vagy egy olyan blobtárolónak kell lennie, amelyet korábban az Azure HPC Cache-adatokhoz használtak.

  • Ha több ügyfelet és párhuzamos műveletet használ, hatékonyabban másolhat adatokat az Azure HPC Cache-ből egy háttértárhelyre. Az egyik ügyfél egyszerű másolási parancsa lassan helyezi át az adatokat.

A cikkben ismertetett stratégiák egy üres blobtároló feltöltésére vagy fájlok egy korábban használt tárolóhoz való hozzáadására szolgálnak.

Adatok másolása az Azure HPC Cache-ben

Az Azure HPC Cache úgy lett kialakítva, hogy egyszerre több ügyfelet szolgáljon ki, így az adatok gyorsítótáron keresztüli másolásához több ügyfél párhuzamos írásait kell használnia.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

copy Az cp adatoknak az egyik tárolórendszerből a másikba való átvitelére általában használt parancsok egyszálú folyamatok, amelyek egyszerre csak egy fájlt másolnak. Ez azt jelenti, hogy a fájlkiszolgáló egyszerre csak egy fájlt használ be , ami a gyorsítótár erőforrásainak pazarlása.

Ez a szakasz azt ismerteti, hogyan hozhat létre többügyféles, többszálas fájlmásoló rendszert az adatok Blob Storage-ba való áthelyezéséhez az Azure HPC Cache használatával. Ismerteti a fájlátviteli fogalmakat és döntési pontokat, amelyek több ügyféllel és egyszerű másolási parancsokkal hatékony adatmásoláshoz használhatók.

Emellett néhány segédprogramot is ismertet, amelyek segíthetnek. A msrsync segédprogrammal részben automatizálható az adathalmazok gyűjtőkre való felosztásának folyamata, valamint rsync parancsok használatával. A parallelcp szkript egy másik segédprogram, amely beolvassa a forráskönyvtárat, és automatikusan problémákat tapasztal a másolási parancsokkal.

Stratégiai tervezés

Az adatok párhuzamos másolására vonatkozó stratégia létrehozásakor ismernie kell a fájlméret, a fájlszám és a könyvtármélység közötti kompromisszumokat.

  • Ha a fájlok kicsik, a fontos metrika a fájlok másodpercenkénti száma.
  • Ha a fájlok nagyok (10MiBi vagy nagyobb), a fontos metrika másodpercenkénti bájt.

Minden másolási folyamat átviteli sebességével és fájlok átvitelének sebességével rendelkezik, amely a másolási parancs hosszának időzítésével, valamint a fájlméret és a fájlszám figyelembe adásával mérhető. Az arányok mérésének ismertetése nem tartozik a dokumentum hatókörébe, de elengedhetetlen annak megértése, hogy kis vagy nagy fájlokkal fog-e foglalkozni.

Az Azure HPC Cache-sel való párhuzamos adatbetöltés stratégiái a következők:

Következő lépések

A tároló beállítása után megtudhatja, hogyan csatlakoztathatják az ügyfelek a gyorsítótárat.