Duplicitní sloupce v chybě metadat
Problém
Vaše úloha Apache Spark zpracovává rozdílovou tabulku, pokud se úloha nezdařila s chybovou zprávou.
org.apache.spark.sql.AnalysisException: Found duplicate column(s) in the metadata update: col1, col2...
Příčina
V tabulce rozdílů jsou duplicitní názvy sloupců. Názvy sloupců, které se liší pouze písmeny, jsou považovány za duplicitní.
Při ukládání schématu rozdílový Lake rozlišuje velikost písmen, ale nerozlišuje velká a malá písmena.
Parquet rozlišuje velká a malá písmena při ukládání a vracení informací o sloupcích.
Spark může rozlišovat velká a malá písmena, ale ve výchozím nastavení rozlišuje velká a malá písmena.
Aby nedocházelo k potenciálnímu poškození dat nebo ztrátě dat, nejsou povoleny duplicitní názvy sloupců.
Řešení
Rozdílové tabulky nesmí obsahovat duplicitní názvy sloupců.
Zajistěte, aby všechny názvy sloupců byly jedinečné.