Дублирование столбцов в ошибке метаданных

Проблема

Задание Apache Spark обрабатывает разностную таблицу при сбое задания с сообщением об ошибке.

org.apache.spark.sql.AnalysisException: Found duplicate column(s) in the metadata update: col1, col2...

Причина

В разностной таблице есть дублирующиеся имена столбцов. Имена столбцов, отличающиеся только регистром, считаются повторяющимися.

При хранении схемы Дельта Lake сохраняет регистр, но не учитывает регистр.

Parquet учитывает регистр при хранении и возврате сведений о столбцах.

В Spark можно учитывать регистр, но по умолчанию регистр не учитывается.

Чтобы избежать возможного повреждения данных или потери данных, дублирующиеся имена столбцов не допускаются.

Решение

Разностные таблицы не должны содержать повторяющихся имен столбцов.

Убедитесь, что все имена столбцов уникальны.