Python ile karşıya yüklemeler ve indirmeler için performans ayarlama

Bir uygulama Python için Azure Depolama istemci kitaplığını kullanarak veri aktardığında, hızı, bellek kullanımını ve hatta isteğin başarısını veya başarısızlığını etkileyebilecek çeşitli faktörler vardır. Veri aktarımlarında performansı ve güvenilirliği en üst düzeye çıkarmak için, uygulamanızın çalıştığı ortama göre istemci kitaplığı aktarım seçeneklerini yapılandırma konusunda proaktif olmak önemlidir.

Bu makalede, veri aktarımı seçeneklerini ayarlamayla ilgili dikkat edilmesi gereken bazı noktalar açıklanır. düzgün ayarlandığında, istemci kitaplığı verileri birden çok istek arasında verimli bir şekilde dağıtabilir ve bu da gelişmiş işlem hızı, bellek kullanımı ve ağ kararlılığı ile sonuçlanabilir.

Karşıya yüklemeler için performans ayarlama

Veri aktarımı seçeneklerinin düzgün ayarlanması, karşıya yüklemeler için güvenilir performansın anahtarıdır. Depolama aktarımları, bu bağımsız değişkenlerin değerlerine göre birkaç alt iletide bölümlenir. Desteklenen maksimum aktarım boyutu işleme ve hizmet sürümüne göre değişir, bu nedenle sınırları belirlemek için belgeleri gözden geçirin. Blob depolama için aktarım boyutu sınırları hakkında daha fazla bilgi için bkz . Blob depolama için hedefleri ölçeklendirme.

Karşıya yüklemeler için aktarım seçeneklerini ayarlama

Aşağıdaki bağımsız değişkenler uygulamanızın gereksinimlerine göre ayarlanabilir:

  • max_single_put_size: Tek bir istekle karşıya yüklenecek blob için maksimum boyut. Varsayılan değer 64 MiB'dir.
  • max_block_size: Blok blobu öbekler halinde karşıya yüklenirken bayt cinsinden aktarım uzunluğu üst sınırı. Varsayılan değer 4 MiB'dir.
  • max_concurrency: Paralel olarak kullanılabilecek en fazla alt iletim sayısı.

Dekont

İstemci kitaplıkları, sağlanmadıysa her veri aktarımı seçeneği için varsayılan değerleri kullanır. Bu varsayılanlar genellikle bir veri merkezi ortamında yüksek performanslıdır, ancak ev tüketicisi ortamları için uygun olmayabilir. Kötü ayarlanmış veri aktarımı seçenekleri aşırı uzun işlemlere ve hatta istek zaman aşımlarına neden olabilir. Bu değerleri test etmek ve uygulamanızın ve ortamınızın ihtiyaçlarına göre ayarlamak için proaktif olmak en iyisidir.

max_single_put_size

max_single_put_size Bağımsız değişken, tek bir istek karşıya yükleme için bayt cinsinden en büyük blob boyutudur. Blob boyutu değerinden küçük veya buna eşitse max_single_put_size, blob tek bir Put Blob isteğiyle karşıya yüklenir. Blob boyutu değerinden büyükse max_single_put_sizeveya blob boyutu bilinmiyorsa, blob bir dizi Blok Koy çağrısı ve ardından Blok Listesi Koy kullanılarak öbekler halinde karşıya yüklenir.

Belirttiğiniz değerin için max_block_sizemax_single_put_sizetanımladığınız değeri sınırlamadığını unutmayın. max_single_put_size bağımsız değişkeni, bir isteğin alt iletim olmadan tüm işlemi aynı anda gerçekleştirmesi için ayrı bir boyut sınırlaması tanımlar. Genellikle, büyük değilse için tanımladığınız max_block_sizedeğer kadar büyük olmak istersinizmax_single_put_size. Veri aktarımının boyutuna bağlı olarak, aktarım tek bir istekle tamamlandığından ve birden çok isteğin ek yükünü önlediği için bu yaklaşım daha yüksek performanslı olabilir.

Durumunuz için en uygun değerin hangisi olduğundan emin değilseniz, güvenli bir seçenek için max_block_sizekullanılan değere ayarlamaktırmax_single_put_size.

max_block_size

Bağımsız max_block_size değişken, blok blobunu öbekler halinde karşıya yüklerken bayt cinsinden aktarımın uzunluk üst sınırıdır. Daha önce belirtildiği gibi, bu değer değerinden büyük max_block_sizeolabilecek değerini sınırlamazmax_single_put_size.

Verilerin verimli bir şekilde ilerlemesini sağlamak için istemci kitaplıkları her aktarım için her zaman değere max_block_size ulaşamayabilir. İşleme bağlı olarak aktarım boyutu için desteklenen maksimum değer farklılık gösterebilir. Blob depolama için aktarım boyutu sınırları hakkında daha fazla bilgi için Bkz . Blob depolama için hedefleri ölçeklendirme.

Kod örneği

Aşağıdaki kod örneği, nesne BlobClient oluştururken veri aktarımı seçeneklerini belirtmeyi ve bu istemci nesnesini kullanarak verileri karşıya yüklemeyi gösterir. Bu örnekte sağlanan değerler bir öneri olarak tasarlanmamıştır. Bu değerleri düzgün ayarlamak için uygulamanızın belirli gereksinimlerini dikkate almanız gerekir.

def upload_blob_transfer_options(self, account_url: str, container_name: str, blob_name: str):
    # Create a BlobClient object with data transfer options for upload
    blob_client = BlobClient(
        account_url=account_url, 
        container_name=container_name, 
        blob_name=blob_name,
        credential=DefaultAzureCredential(),
        max_block_size=1024*1024*4, # 4 MiB
        max_single_put_size=1024*1024*8 # 8 MiB
    )
    
    with open(file=os.path.join(r'file_path', blob_name), mode="rb") as data:
        blob_client = blob_client.upload_blob(data=data, overwrite=True, max_concurrency=2)

Bu örnekte, yöntem çağrısındaki bağımsız değişkenini max_concurrency kullanarak paralel aktarım çalışanlarının sayısını 2 olarak ayarlayacağız. Bu yapılandırma aynı anda en fazla iki bağlantı açarak karşıya yüklemenin paralel olarak gerçekleşmesini sağlar. İstemci örneği oluşturma sırasında bağımsız değişkenini max_single_put_size 8 MiB olarak ayarladık. Blob boyutu 8 MiB'den küçükse, karşıya yükleme işlemini tamamlamak için yalnızca tek bir istek gerekir. Blob boyutu 8 MiB'den büyükse blob, bağımsız değişken tarafından max_block_size ayarlandığı gibi en büyük öbek boyutu 4 MiB olan öbekler halinde karşıya yüklenir.

Karşıya yüklemeler için performansla ilgili dikkat edilmesi gerekenler

Karşıya yükleme sırasında Depolama istemci kitaplıkları, istemci oluşturma sırasında tanımlanan yapılandırma seçeneklerine göre belirli bir karşıya yükleme akışını birden çok alt yüke böler. Her alt yükün REST işlemine kendi ayrılmış çağrısı vardır. Bir BlobClient nesne için bu işlem Put Block işlemidir. Depolama istemci kitaplığı, yüklemenin tamamını tamamlamak için bu REST işlemlerini paralel olarak yönetir (aktarım seçeneklerine bağlı olarak).

İstemci kitaplığının arabelleğe almayı nasıl işlediğini aşağıdaki bölümlerde öğrenebilirsiniz.

Dekont

Blok blobları en fazla 50.000 blok blok sayısına sahiptir. Blok blobunuzun boyutu üst sınırı 50.000 kezdir max_block_size.

Karşıya yüklemeler sırasında arabelleğe alma

Depolama REST katmanı, kaldığınız yerden REST karşıya yükleme işleminin algılandığını desteklemez; tek tek aktarımlar tamamlanır veya kaybolur. Akış karşıya yüklemelerinde dayanıklılığı sağlamak için, Depolama istemci kitaplıkları karşıya yüklemeyi başlatmadan önce her rest çağrısı için verileri arabelleğe alır. Ağ hızı sınırlamalarına ek olarak, bu arabelleğe alma davranışı sırayla karşıya yüklerken bile için max_block_sizedaha küçük bir değeri göz önünde bulundurmanın bir nedenidir. değerinin max_block_size azaltılması, her istekte arabelleğe alınan maksimum veri miktarını ve başarısız bir isteğin her yeniden denemesini azaltır. Belirli bir boyuttaki veri aktarımları sırasında sık sık zaman aşımlarıyla karşılaşıyorsanız değerini max_block_size azaltmak arabelleğe alma süresini azaltır ve daha iyi performansa neden olabilir.

Varsayılan olarak SDK, eşzamanlı alt yükleme isteği başına bayt verilerini max_block_size arabelleğe alır, ancak aşağıdaki koşulların karşılanması durumunda bellek kullanımı istek başına 4 MiB ile sınırlanabilir:

  • max_block_size Bağımsız değişken değerinden min_large_block_upload_thresholdbüyük olmalıdır. min_large_block_upload_threshold Bağımsız değişken istemci örneği oluşturma sırasında tanımlanabilir ve bellek açısından verimli algoritmayı kullanmak için gereken bayt cinsinden en düşük öbek boyutudur. min_large_block_upload_threshold Bağımsız değişken varsayılan olarak olarak 4*1024*1024 + 1gösterilir.
  • Sağlanan akış aranabilir olmalıdır. Aranabilir akış, bir akış içindeki geçerli konumu sorgulamayı ve değiştirmeyi destekleyen bir akıştır.
  • Blob bir blok blobu olmalıdır.

Bu strateji çoğu durumda geçerli olsa da, kodunuz arabelleğe alma gerektiren diğer istemci kitaplığı özelliklerini kullanıyorsa daha fazla arabelleğe alma gerçekleşebilir.

İndirmeler için performans ayarlama

Veri aktarımı seçeneklerinin düzgün ayarlanması, indirmeler için güvenilir performansın anahtarıdır. Depolama aktarımları, bu bağımsız değişkenlerin değerlerine göre birkaç alt iletide bölümlenir.

İndirmeler için aktarım seçeneklerini ayarlama

Aşağıdaki bağımsız değişkenler uygulamanızın gereksinimlerine göre ayarlanabilir:

  • max_chunk_get_size: Blobu indirmek için kullanılan en büyük öbek boyutu. Varsayılan değer 4 MiB'dir.
  • max_concurrency: Paralel olarak kullanılabilecek en fazla alt iletim sayısı.
  • max_single_get_size: Tek bir çağrıda indirilecek blob için maksimum boyut. Toplam blob boyutu değerini aşarsa max_single_get_sizeblob verilerinin geri kalanı öbekler halinde indirilir. Varsayılan değer 32 MiB'dir.

Kod örneği

def download_blob_transfer_options(self, account_url: str, container_name: str, blob_name: str):
    # Create a BlobClient object with data transfer options for download
    blob_client = BlobClient(
        account_url=account_url, 
        container_name=container_name, 
        blob_name=blob_name,
        credential=DefaultAzureCredential(),
        max_single_get_size=1024*1024*32, # 32 MiB
        max_chunk_get_size=1024*1024*4 # 4 MiB
    )

    with open(file=os.path.join(r'file_path', 'file_name'), mode="wb") as sample_blob:
        download_stream = blob_client.download_blob(max_concurrency=2)
        sample_blob.write(download_stream.readall())

İndirmeler için performansla ilgili dikkat edilmesi gerekenler

İndirme sırasında Depolama istemci kitaplıkları, istemci oluşturma sırasında tanımlanan yapılandırma seçeneklerine göre belirli bir indirme isteğini birden çok alt indirmeye böler. Her alt indirmenin REST işlemine kendi ayrılmış çağrısı vardır. Aktarım seçeneklerine bağlı olarak, istemci kitaplıkları tam indirmeyi tamamlamak için bu REST işlemlerini paralel olarak yönetir.

İndirmeler için max_single_get_size

İndirme sırasında, Depolama istemci kitaplıkları başka bir şey yapmadan önce kullanarak max_single_get_size bir indirme aralığı isteğinde bulunur. bu ilk indirme isteği sırasında istemci kitaplıkları kaynağın toplam boyutunu bilir. İlk istek tüm içeriği başarıyla indirdiyse işlem tamamlanır. Aksi takdirde, istemci kitaplıkları tam indirme tamamlanana kadar aralık isteklerinde bulunmaya max_chunk_get_size devam eder.

Sonraki adımlar

  • Azure Depolama işlemlerinin performansını etkileyebilecek faktörler hakkında daha fazla bilgi edinmek için bkz. Blob depolamada gecikme süresi.
  • Blob depolama kullanarak uygulamaların performansını iyileştirmeye yönelik tasarım konuları listesini görmek için bkz . Blob depolama için performans ve ölçeklenebilirlik denetim listesi.