Gegevens verplaatsen naar Azure Blob Storage
Als uw werkstroom het verplaatsen van gegevens naar Azure Blob Storage omvat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U kunt gegevens vooraf laden in een nieuwe blobcontainer voordat u deze definieren als een opslagdoel, of de container toevoegen en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.
In dit artikel wordt uitgelegd hoe u gegevens het beste kunt verplaatsen naar blobopslag voor gebruik met Azure HPC Cache.
Tip
Dit artikel is niet van toepassing op aan NFS-mounted blob-opslag (ADLS-NFS-opslagdoelen). U kunt elke NFS-methode gebruiken om een ADLS-NFS-blobcontainer te vullen voordat u deze toevoegt aan de HPC Cache. Lees Gegevens vooraf laden met het NFS-protocol voor meer informatie.
Houd rekening met de volgende feiten:
Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache gegevens.
Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.
Er is een hulpprogramma op basis van Python beschikbaar om inhoud in een blobopslagcontainer te laden. Lees Gegevens vooraf laden in blobopslag voor meer informatie.
Als u het laadprogramma niet wilt gebruiken of als u inhoud wilt toevoegen aan een bestaand opslagdoel, volgt u de parallelle tips voor gegevens opnemen in Gegevens kopiëren via de Azure HPC Cache.
Gegevens vooraf laden in blobopslag met CLFSLoad
U kunt het hulpprogramma Avere CLFSLoad gebruiken om gegevens te kopiëren naar een nieuwe blobopslagcontainer voordat u deze toevoegt als opslagdoel. Dit hulpprogramma wordt uitgevoerd op één Linux-systeem en schrijft gegevens in de eigen indeling die nodig is voor Azure HPC Cache. CLFSLoad is de meest efficiënte manier om een blobopslagcontainer te vullen voor gebruik met de cache.
Het hulpprogramma Avere CLFSLoad is beschikbaar op aanvraag van uw Azure HPC Cache team. Vraag uw team contact om contact op te nemen of open een ondersteuningsticket om hulp te vragen.
Deze optie werkt alleen met nieuwe, lege containers. Maak de container voordat u Avere CLFSLoad gebruikt.
Gedetailleerde informatie is opgenomen in de distributie van Avere CLFSLoad, die beschikbaar is op aanvraag van het Azure HPC Cache team.
Een algemeen overzicht van het proces:
- Bereid een Linux-systeem (VM of fysiek) voor met Python versie 3.6 of hoger. Python 3.7 wordt aanbevolen voor betere prestaties.
- Installeer de Avere-CLFSLoad software op het Linux-systeem.
- Voer de overdracht uit vanaf de Linux-opdrachtregel.
Het hulpprogramma Avere CLFSLoad heeft de volgende informatie nodig:
- De opslagaccount-id die uw blobopslagcontainer bevat
- De naam van de lege blobopslagcontainer
- Een SAS-token (Shared Access Signature) waarmee het hulpprogramma naar de container kan schrijven
- Een lokaal pad naar de gegevensbron: een lokale map die de te kopiëren gegevens bevat, of een lokaal pad naar een bevestigd extern systeem met de gegevens
Gegevens kopiëren via de Azure HPC Cache
Als u het Avere CLFSLoad-hulpprogramma niet wilt gebruiken of als u een grote hoeveelheid gegevens wilt toevoegen aan een bestaand blobopslagdoel, kunt u deze via de cache kopiëren. Azure HPC Cache is ontworpen om meerdere clients tegelijkertijd te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijf schrijfgegevens van meerdere clients gebruiken.

De or-opdrachten die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één cp copy bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand per keer opsleert. Dit is een verspilling van de resources van de cache.
In deze sectie worden strategieën uitgelegd voor het maken van een systeem voor het kopiëren van bestanden met meerdere clientthreads om gegevens naar blobopslag te verplaatsen met Azure HPC Cache. Er worden concepten voor bestandsoverdracht en beslissingspunten uitgelegd die kunnen worden gebruikt voor het efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.
Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het hulpprogramma kan worden gebruikt om het proces van het delen van een gegevensset in buckets gedeeltelijk te automatiseren msrsync en rsync-opdrachten te gebruiken. Het parallelcp script is een ander hulpprogramma dat de bronmap leest en automatisch kopieeropdrachten uit geeft.
Strategische planning
Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u de afwegingen in bestandsgrootte, bestandsgrootte en mapdiepte begrijpen.
- Wanneer bestanden klein zijn, zijn de metrische gegevens van belang voor bestanden per seconde.
- Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.
Elk kopieerproces heeft een doorvoersnelheid en een snelheid waarmee bestanden worden overgedragen. Dit kan worden gemeten door de duur van de kopieeropdracht te timingen en de bestandsgrootte en het aantal bestanden te factoreren. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is belangrijk om te weten of u te maken hebt met kleine of grote bestanden.
Strategieën voor parallelle gegevensingestie met Azure HPC Cache zijn onder andere:
Handmatig kopiëren: u kunt handmatig een kopie met meerdere threads maken op een client door meer dan één kopieeropdracht tegelijk op de achtergrond uit te voeren op basis van vooraf gedefinieerde sets bestanden of paden. Lees Azure HPC Cache gegevens opnemen - handmatige kopieermethode voor meer informatie.
Gedeeltelijk geautomatiseerd kopiëren met
msrsync-msrsyncis een wrapper-hulpprogramma dat meerdere parallelle processenrsyncwordt uitgevoerd. Lees voor meer informatie Azure HPC Cache gegevens opnemen - msrsync-methode.Kopiëren met scripts met : leer hoe u een parallel kopieerscript kunt maken en uitvoeren in Azure HPC Cache opnemen van gegevens - scriptmethode voor
parallelcpparallel kopiëren.
Volgende stappen
Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen mounten.