Öğretici: Databricks kullanarak kapsayıcı istatistiklerini hesaplama

Makale
06/01/2023

Bu öğreticide, Azure Databricks ile birlikte Azure Blob Depolama envanteri kullanarak kapsayıcılarınızla ilgili istatistikleri toplama adımları gösterilmektedir.

Bu öğreticide şunların nasıl yapıldığını öğreneceksiniz:

Stok raporu oluşturma
Azure Databricks çalışma alanı, kümesi ve not defteri oluşturma
Blob envanter dosyasını okuma
Blobların, anlık görüntülerin ve sürümlerin sayısını ve toplam boyutunu alma
Blob türüne ve içerik türüne göre blob sayısını alma

Önkoşullar

Azure aboneliği - ücretsiz hesap oluşturma
Azure depolama hesabı - depolama hesabı oluşturma

Kullanıcı kimliğinize Depolama Blobu Veri Katkıda Bulunanı rolünün atandığından emin olun.

Stok raporu oluşturma

Depolama hesabınız için blob envanter raporlarını etkinleştirin. Bkz. Azure Depolama blob envanter raporlarını etkinleştirme.

Aşağıdaki yapılandırma ayarlarını kullanın:

Ayar	Değer
Kural adı	blobinventory
Kapsayıcı	<kapsayıcınızın adı>
Envantere nesne türü	Blob
Blob türleri	Blok blobları, Sayfa blobları ve Ekleme blobları
Alt	blob sürümlerini dahil edin, anlık görüntüleri dahil edin, silinen blobları dahil edin
Blob envanter alanları	Tümü
Stok sıklığı	Günlük
Dışarı aktarma biçimi	CSV

İlk raporunuzun oluşturulması için envanter raporlarını etkinleştirdikten sonra 24 saate kadar beklemeniz gerekebilir.

Azure Databricks'i yapılandırma

Bu bölümde bir Azure Databricks çalışma alanı, kümesi ve not defteri oluşturacaksınız. Bu öğreticinin ilerleyen bölümlerinde kod parçacıklarını not defteri hücrelerine yapıştıracak ve sonra bunları çalıştırarak kapsayıcı istatistiklerini toplayacaksınız.

Azure Databricks çalışma alanı oluşturun. Bkz. Azure Databricks çalışma alanı oluşturma.
Küme oluşturma. Bkz. Küme oluşturma.
Not defteri oluşturun ve not defterinin varsayılan dili olarak Python'ı seçin. Bkz. Not defteri oluşturma.

Blob envanter dosyasını okuma

Aşağıdaki kod bloğunu kopyalayıp ilk hücreye yapıştırın, ancak bu kodu henüz çalıştırmayın.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
   storage_account_name = "<storage-account-name>"
   storage_account_key = "<storage-account-key>"
   container = "<container-name>"
   blob_inventory_file = "<blob-inventory-file-name>" 
   hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

Bu kod bloğunda aşağıdaki değerleri değiştirin:
- <storage-account-name> Yer tutucu değerini depolama hesabınızın adıyla değiştirin.
- <storage-account-key> Yer tutucu değerini depolama hesabınızın hesap anahtarıyla değiştirin.
- <container-name> Yer tutucu değerini envanter raporlarını tutan kapsayıcıyla değiştirin.
- Yer tutucuyu <blob-inventory-file-name> stok dosyasının tam adıyla değiştirin (Örneğin: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Hesabınızın hiyerarşik ad alanı varsa değişkenini hierarchical_namespace_enabled olarak Trueayarlayın.
Kodu bu blokta çalıştırmak için SHIFT + ENTER tuşlarına basın.