Duplicitní sloupce v chybě metadat

Problém

Vaše úloha Apache Spark zpracovává rozdílovou tabulku, pokud se úloha nezdařila s chybovou zprávou.

org.apache.spark.sql.AnalysisException: Found duplicate column(s) in the metadata update: col1, col2...

Příčina

V tabulce rozdílů jsou duplicitní názvy sloupců. Názvy sloupců, které se liší pouze písmeny, jsou považovány za duplicitní.

Při ukládání schématu rozdílový Lake rozlišuje velikost písmen, ale nerozlišuje velká a malá písmena.

Parquet rozlišuje velká a malá písmena při ukládání a vracení informací o sloupcích.

Spark může rozlišovat velká a malá písmena, ale ve výchozím nastavení rozlišuje velká a malá písmena.

Aby nedocházelo k potenciálnímu poškození dat nebo ztrátě dat, nejsou povoleny duplicitní názvy sloupců.

Řešení

Rozdílové tabulky nesmí obsahovat duplicitní názvy sloupců.

Zajistěte, aby všechny názvy sloupců byly jedinečné.