Обогащение таблиц Delta Lake с помощью пользовательских метаданных

Databricks рекомендует всегда предоставлять комментарии для таблиц и столбцов в таблицах. Эти комментарии можно создать с помощью ИИ. См. статью "Добавление комментариев, созданных ИИ" в таблицу.

Каталог Unity также предоставляет возможность тегировать данные. См. раздел "Применить теги".

Вы также можете регистрировать сообщения для отдельных фиксаций в таблицах в поле в журнале транзакций Delta Lake.

Настройка метаданных фиксации, определяемых пользователем

Определяемые пользователем строки можно указать как метаданные в фиксациях с помощью параметра userMetadata DataFrameWriter или конфигурации spark.databricks.delta.commitInfo.userMetadataSparkSession. Если указаны оба значения, параметр выбирает приоритетное значение. Эти пользовательские метаданные доступны для чтения в DESCRIBE HISTORY операции. См. Работа с таблицей журнала Delta Lake.

SQL


SET spark.databricks.delta.commitInfo.userMetadata=overwritten-for-fixing-incorrect-data
INSERT OVERWRITE default.people10m SELECT * FROM morePeople

Python

df.write.format("delta") \
  .mode("overwrite") \
  .option("userMetadata", "overwritten-for-fixing-incorrect-data") \
  .save("/tmp/delta/people10m")

Scala

df.write.format("delta")
  .mode("overwrite")
  .option("userMetadata", "overwritten-for-fixing-incorrect-data")
  .save("/tmp/delta/people10m")