Flytta data till Azure Blob Storage

Om arbetsflödet inkluderar att flytta data till Azure Blob Storage kontrollerar du att du använder en effektiv strategi. Du bör skapa cachen, lägga till blobcontainern som lagringsmål och sedan kopiera dina data med Azure HPC Cache.

Den här artikeln beskriver de bästa sätten att flytta data till bloblagring för användning med Azure HPC Cache.

Dricks

Den här artikeln gäller inte för NFS-monterad bloblagring (ADLS-NFS-lagringsmål). Du kan använda valfri NFS-baserad metod för att fylla i en ADLS-NFS-blobcontainer före eller efter att du har lagt till den i HPC Cache. Läs förinlästa data med NFS-protokollet om du vill veta mer.

Tänk på följande fakta:

  • Azure HPC Cache använder ett specialiserat lagringsformat för att organisera data i bloblagring. Därför måste ett bloblagringsmål antingen vara en ny, tom container eller en blobcontainer som tidigare användes för Azure HPC Cache-data.

  • Det är effektivare att kopiera data via Azure HPC Cache till ett lagringsmål för serverdelen när du använder flera klienter och parallella åtgärder. Ett enkelt kopieringskommando från en klient flyttar data långsamt.

De strategier som beskrivs i den här artikeln fungerar för att fylla i en tom blobcontainer eller för att lägga till filer i ett tidigare använt lagringsmål.

Kopiera data via Azure HPC Cache

Azure HPC Cache är utformat för att hantera flera klienter samtidigt, så om du vill kopiera data via cacheminnet bör du använda parallella skrivningar från flera klienter.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

De cp eller-kommandon copy som du vanligtvis använder för att överföra data från ett lagringssystem till ett annat är entrådade processer som endast kopierar en fil i taget. Det innebär att filservern bara matar in en fil i taget , vilket är slöseri med cachens resurser.

I det här avsnittet beskrivs strategier för att skapa ett filkopieringssystem med flera klienter och flera trådar för att flytta data till bloblagring med Azure HPC Cache. Den förklarar filöverföringsbegrepp och beslutspunkter som kan användas för effektiv datakopiering med flera klienter och enkla kopieringskommandon.

Det förklarar också några verktyg som kan hjälpa. Verktyget msrsync kan användas för att delvis automatisera processen att dela upp en datamängd i bucketar och använda rsync-kommandon. Skriptet parallelcp är ett annat verktyg som läser källkatalogen och utfärdar kopieringskommandon automatiskt.

Strategisk planering

När du skapar en strategi för att kopiera data parallellt bör du förstå kompromisserna i filstorlek, filantal och katalogdjup.

  • När filerna är små är måttet av intresse filer per sekund.
  • När filer är stora (10MiBi eller större) är måttet av intresse byte per sekund.

Varje kopieringsprocess har en dataflödeshastighet och en filöverföringshastighet, som kan mätas genom att tidsbegränsa längden på kopieringskommandot och beräkna filstorleken och antalet filer. Att förklara hur du mäter priserna ligger utanför omfånget för det här dokumentet, men det är absolut nödvändigt att förstå om du kommer att hantera små eller stora filer.

Strategier för parallell datamatning med Azure HPC Cache är:

Nästa steg

När du har konfigurerat lagringen får du lära dig hur klienter kan montera cacheminnet.