Verileri Azure Blob depolamaya taşıma
İş akışınız verileri Azure Blob depolamaya taşımayı kapssasa verimli bir stratejiyi kullanmaya emin olun. Depolama hedefi olarak tanımlamadan önce yeni bir blob kapsayıcısı içinde verileri önceden yükleme veya kapsayıcıyı ekleme ve sonra kapsayıcıyı kullanarak verilerinizi Azure HPC Önbelleği.
Bu makalede, verileri blob depolamaya taşımanın en iyi yolları, veri depolama alanı Azure HPC Önbelleği.
İpucu
Bu makale NFS'ye bağlı blob depolama (ADLS-NFS depolama hedefleri) için geçerli değildir. HPC Önbelleği'ne eklemeden önce bir ADLS-NFS blob kapsayıcısı doldurmak için NFS tabanlı herhangi bir yöntemi kullanabilirsiniz. Daha fazla bilgi edinmek için NFS protokolü ile verileri önceden yükleme makalelerini okuyun.
Şu olguları unutmayın:
Azure HPC Önbelleği blob depolamada verileri düzenlemek için özel bir depolama biçimi kullanır. Bu nedenle blob depolama hedefinin yeni, boş bir kapsayıcı veya daha önce veri toplama için kullanılan bir blob Azure HPC Önbelleği gerekir.
Birden çok istemci ve paralel Azure HPC Önbelleği arka uç depolama hedefine veri kopyalama daha verimlidir. Bir istemciden gelen basit bir kopyalama komutu verileri yavaş hareket ettirecek.
Bir blob depolama kapsayıcısı içine içerik yüklemek için Python tabanlı bir yardımcı program kullanılabilir. Daha fazla bilgi edinmek için blob depolamada verileri önceden yükleme makalelerini okuyun.
Yükleme yardımcı programını kullanmak istemiyorsanız veya mevcut bir depolama hedefine içerik eklemek için, Azure HPC Önbelleği aracılığıyla veri kopyalama konusunda yer alan paralel veri toplama ipuçlarını izleyin.
CLFSLoad ile blob depolamada verileri önceden yükleme
Depolama hedefi olarak eklemeden önce Avere CLFSLoad yardımcı programını kullanarak verileri yeni bir blob depolama kapsayıcıya kopyaabilirsiniz. Bu yardımcı program tek bir Linux sisteminde çalışır ve verileri veri kaynağı oluşturmak için gereken özel biçimde Azure HPC Önbelleği. CLFSLoad, önbellekle kullanmak üzere bir blob depolama kapsayıcısı doldurmanın en verimli yolu.
Avere CLFSLoad yardımcı programı, Azure HPC Önbelleği tarafından kullanılabilir. Bunun için takımınıza başvurun veya yardım istemek için bir destek bileti açın.
Bu seçenek yalnızca yeni, boş kapsayıcılarla çalışır. Avere CLFSLoad'ı kullanmadan önce kapsayıcıyı oluşturun.
Ayrıntılı bilgiler, Avere CLFSLoad dağıtımına dahildir ve bu dağıtım ekibinden Azure HPC Önbelleği edinebilirsiniz.
Süreçle ilgili genel bir genel bakış:
- Python sürüm 3.6 veya sonraki bir sürüme sahip bir Linux sistemi (VM veya fiziksel) hazırlayın. Daha iyi performans için Python 3.7 önerilir.
- Linux Avere-CLFSLoad yükleme.
- Aktarımı Linux komut satırına yürütün.
Avere CLFSLoad yardımcı programı için aşağıdaki bilgiler gerekir:
- Blob depolama kapsayıcınızı içeren depolama hesabı kimliği
- Boş blob depolama kapsayıcısı adı
- Yardımcı programın kapsayıcıya yazmasını sağlayan paylaşılan erişim imzası (SAS) belirteci
- Veri kaynağının yerel yolu : Kopyalanır verileri içeren yerel bir dizin veya verilerle bağlı bir uzak sistemin yerel yolu
Veri kopyalama Azure HPC Önbelleği
Avere CLFSLoad yardımcı programını kullanmak istemiyorsanız veya var olan bir blob depolama hedefine büyük miktarda veri eklemek için önbellek üzerinden kopyaabilirsiniz. Azure HPC Önbelleği aynı anda birden çok istemciye hizmet verecek şekilde tasarlanmıştır, bu nedenle önbellek üzerinden veri kopyalamak için birden çok istemciden paralel yazmalar kullanabilirsiniz.

Genellikle bir depolama sisteminden diğerine veri aktarımı için kullanılan veya komutları, aynı anda yalnızca bir dosya kopyalayıp tek iş cp copy parçacıklı işlemlerdir. Bu, dosya sunucusunun aynı anda yalnızca bir dosya alan olduğu anlamına gelir ve bu da önbelleğin kaynaklarını boşa harcanır.
Bu bölümde, verileri depolama alanıyla blob depolamaya taşımak için çok istemcili, çok iş parçacıklı dosya kopyalama sistemi oluşturmaya Azure HPC Önbelleği. Birden çok istemci ve basit kopyalama komutları kullanarak verimli veri kopyalama için kullanılan dosya aktarımı kavramlarını ve karar noktalarını açıklar.
Ayrıca yardımcı olacak bazı yardımcı programları da açıklar. yardımcı programı, bir veri kümesi demetlerine bölme işlemini kısmen otomatikleştirmek ve msrsync rsync komutlarını kullanmak için kullanılabilir. parallelcpBetik, kaynak dizini okur ve kopyalama komutlarını otomatik olarak soruna neden olan başka bir yardımcı programdır.
Stratejik planlama
Verileri paralel olarak kopyalamak için bir strateji hazırlarken, dosya boyutu, dosya sayısı ve dizin derinliğinde bazı tradeoff'ları anlamanız gerekir.
- Dosyalar küçük olduğunda, ilgi ölçümü saniye başına dosya sayısıdır.
- Dosyalar büyük olduğunda (10MiBi veya daha büyük), ilgi ölçümü bayt/saniye olur.
Her kopyalama işleminin aktarım hızı ve dosya aktarım hızı vardır. Bu hız, kopyalama komutunun uzunluğunun zamanlaması ve dosya boyutu ile dosya sayısını çarpanlara katarak ölçülebilir. Oranların nasıl ölçülebilir olduğunu açıklamak bu belgenin kapsamının dışındadır, ancak küçük veya büyük dosyalarla mı uğraşıp ilgilenmey dosyalarınızı anlamak gerekir.
Verilerle paralel veri Azure HPC Önbelleği şunlardır:
El ile kopyalama - Önceden tanımlanmış dosya veya yol kümelerine karşı arka planda aynı anda birden fazla kopyalama komutu çalıştırarak istemcide el ile çok iş parçacıklı bir kopya oluşturabilirsiniz. Ayrıntılar Azure HPC Önbelleği veri toplama - el ile kopyalama yöntemi makalelerini okuyun.
ile kısmen otomatik
msrsync-msrsynckopyalama, birden çok paralel işlem çalıştıran bir sarmalayıcırsyncyardımcı programıdır. Ayrıntılar için veri Azure HPC Önbelleği - msrsync yöntemini okuyun.ile betik kopyalama - Paralel kopyalama betiği yöntemi olan veri Azure HPC Önbelleği içinde paralel kopyalama
parallelcpbetiği oluşturma ve çalıştırmayı öğrenin.
Sonraki adımlar
Depolamanızı ayardikten sonra istemcilerin önbelleği nasıl bağlaması olduğunu öğrenin.