تكرار الأعمدة في خطأ بيانات التعريف

مشكلة

وظيفة Apache Spark الخاص بك هو معالجة جدول دلتا عند فشل المهمة مع رسالة خطأ.

org.apache.spark.sql.AnalysisException: Found duplicate column(s) in the metadata update: col1, col2...

السبب

هناك أسماء أعمدة مكررة في جدول دلتا. تعتبر أسماء الأعمدة التي تختلف فقط حسب الحالة مكررة.

دلتا بحيرة هو الحفاظ على حالة، ولكن غير حساسة لحالة الأحرف، عند تخزين مخطط.

باركيه حساسة لحالة الأحرف عند تخزين معلومات العمود وإعادتها.

يمكن أن تكون Spark حساسة لحالة الأحرف، ولكنها غير حساسة لحالة الأحرف بشكل افتراضي.

لتجنب تلف البيانات المحتملة أو فقدان البيانات، لا يسمح أسماء الأعمدة المكررة.

حل

يجب ألا تحتوي جداول دلتا على أسماء أعمدة مكررة.

تأكد من أن كافة أسماء الأعمدة فريدة.