Руководство по вычислению статистики контейнера с помощью Databricks

Статья
06/01/2023

В этом руководстве показано, как собирать статистику о контейнерах с помощью Хранилище BLOB-объектов Azure инвентаризации вместе с Azure Databricks.

В этом руководстве описано следующее:

Создание отчета об инвентаризации
Создание рабочей области, кластера и записной книжки Azure Databricks
Чтение файла инвентаризации BLOB-объектов
Получение количества и общего размера BLOB-объектов, моментальных снимков и версий
Получение количества BLOB-объектов по типу большого двоичного объекта и типу контента

Предварительные требования

Подписка Azure — создание учетной записи бесплатно
Учетная запись хранения Azure — создание учетной записи хранения

Убедитесь, что удостоверению пользователя назначена роль участника данных BLOB-объектов хранилища .

Создание отчета об инвентаризации

Включите отчеты инвентаризации BLOB-объектов для учетной записи хранения. См . статью Включение отчетов об инвентаризации BLOB-объектов службы хранилища Azure.

Используйте следующие параметры конфигурации.

Параметр	Значение
Имя правила	blobinventory
Контейнер	<имя контейнера>
Тип объекта для инвентаризации	BLOB-объект
Типы BLOB-объектов	Блочные, страничные и добавочные BLOB-объекты
Подтипы	включить версии BLOB-объектов, включить моментальные снимки, включить удаленные BLOB-объекты
Поля инвентаризации BLOB-объектов	Все
Частота инвентаризации	Ежедневно
Формат экспорта	CSV

Для создания первого отчета может потребоваться подождать до 24 часов после включения отчетов инвентаризации.

Настройка Azure Databricks

В этом разделе описано, как создать рабочую область, кластер и записную книжку Azure Databricks. Далее в этом руководстве вы вставьте фрагменты кода в ячейки записной книжки, а затем выполните их для сбора статистики контейнеров.

создание рабочей области Azure Databricks; См . статью Создание рабочей области Azure Databricks.
Создание кластера. См. Создание кластера.
Создайте записную книжку и выберите язык Python по умолчанию для записной книжки. См . статью Создание записной книжки.

Чтение файла инвентаризации BLOB-объектов

Скопируйте и вставьте следующий блок кода в первую ячейку, но не запускайте этот код.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
   storage_account_name = "<storage-account-name>"
   storage_account_key = "<storage-account-key>"
   container = "<container-name>"
   blob_inventory_file = "<blob-inventory-file-name>" 
   hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

В этом блоке кода замените следующие значения:
- Замените значение заполнителя <storage-account-name> именем вашей учетной записи хранения.
- Замените <storage-account-key> значение заполнителя ключом учетной записи хранения.
- Замените <container-name> значение заполнителя контейнером, который содержит отчеты инвентаризации.
- Замените <blob-inventory-file-name> заполнитель полным именем файла инвентаризации (например, 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Если у вашей учетной записи есть иерархическое пространство имен, задайте для переменной hierarchical_namespace_enabled значение True.
Нажмите клавиши SHIFT + ВВОД, чтобы запустить код в этом блоке.