使用自定义元数据扩充 Delta Lake 表

Databricks 建议始终为表和表中的列提供注释。 可以使用 AI 生成这些注释。 请参阅向表添加 AI 生成的注释

Unity Catalog 还提供了标记数据的功能。 请参阅应用标记

你还可以为 Delta Lake 事务日志中某个字段中表的单个提交记录消息。

设置用户定义的提交元数据

你可以使用 DataFrameWriter 选项 userMetadata 或 SparkSession 配置 spark.databricks.delta.commitInfo.userMetadata 来将用户定义的字符串指定为提交中的元数据。 如果同时指定了两个参数,则此选项将优先。 此用户定义的元数据在 DESCRIBE HISTORY 操作中可读。 请参阅使用 Delta Lake 表历史记录

SQL


SET spark.databricks.delta.commitInfo.userMetadata=overwritten-for-fixing-incorrect-data
INSERT OVERWRITE default.people10m SELECT * FROM morePeople

Python

df.write.format("delta") \
  .mode("overwrite") \
  .option("userMetadata", "overwritten-for-fixing-incorrect-data") \
  .save("/tmp/delta/people10m")

Scala

df.write.format("delta")
  .mode("overwrite")
  .option("userMetadata", "overwritten-for-fixing-incorrect-data")
  .save("/tmp/delta/people10m")