ما هي جميع عناصر دلتا في Azure Databricks؟

هذه المقالة هي مقدمة إلى التقنيات التي تحمل علامة تجارية جماعية Delta على Azure Databricks. تشير Delta إلى التقنيات المتعلقة بمشروع Delta Lake مصدر مفتوح أو في مشروعه.

تجيب هذه المقالة:

  • ما هي تقنيات دلتا في Azure Databricks؟
  • ماذا يفعلون؟ أو ما الذي تستخدم من أجله؟
  • كيف ترتبط ببعضها البعض وتميز عن بعضها البعض؟

ما هي عناصر دلتا المستخدمة؟

Delta هو مصطلح تم تقديمه مع Delta Lake، وهو الأساس لتخزين البيانات والجداول في مستودع Databricks. تم تصور Delta Lake كنظام موحد لإدارة البيانات للتعامل مع البيانات الضخمة في الوقت الحقيقي للمعاملات والدفعات، من خلال توسيع ملفات بيانات Parquet مع سجل معاملات مستند إلى ملف لمعاملات ACID ومعالجة بيانات التعريف القابلة للتطوير.

Delta Lake: إدارة بيانات نظام التشغيل ل lakehouse

Delta Lake هي طبقة تخزين مفتوحة المصدر توفر الموثوقية لمستودعات البيانات عن طريق إضافة طبقة تخزين المعاملات أعلى البيانات المخزنة في التخزين السحابي (على AWS S3 وAzure Storage وGCS). يسمح لمعاملات ACID وتعيين إصدار البيانات وقدرات التراجع. يسمح لك بمعالجة كل من البيانات الدفعية والبيانات المتدفقة بطريقة موحدة.

يتم إنشاء جداول دلتا أعلى طبقة التخزين هذه وتوفر تجريد جدول، ما يجعل من السهل العمل مع البيانات المنظمة على نطاق واسع باستخدام SQL وواجهة برمجة تطبيقات DataFrame.

جداول دلتا: بنية جدول البيانات الافتراضية

جدول Delta هو تنسيق جدول البيانات الافتراضي في Azure Databricks وهو ميزة لإطار بيانات Delta Lake مصدر مفتوح. تستخدم جداول دلتا عادة لمستودعات البيانات، حيث يتم استيعاب البيانات عبر الدفق أو على دفعات كبيرة.

راجع:

Delta Live Tables: مسارات البيانات

تدير Delta Live Tables تدفق البيانات بين العديد من جداول Delta، مما يبسط عمل مهندسي البيانات في تطوير وإدارة ETL. البنية الأساسية لبرنامج ربط العمليات التجارية هي الوحدة الرئيسية لتنفيذ Delta Live Tables. توفر Delta Live Tables تطوير البنية الأساسية لبرنامج ربط العمليات التجارية التعريفية، وتحسين موثوقية البيانات، وعمليات الإنتاج على نطاق السحابة. يمكن للمستخدمين تنفيذ كل من عمليات الدفعة والتدفق على نفس الجدول والبيانات متاحة على الفور للاستعلام. يمكنك تحديد التحويلات التي يجب إجراؤها على بياناتك، وتدير Delta Live Tables تنسيق المهام وإدارة نظام المجموعة والمراقبة وجودة البيانات ومعالجة الأخطاء. يمكن أن يعالج التحجيم التلقائي المحسن لجداول Delta Live أحمال عمل الدفق غير المتوقعة وغير المتوقعة.

راجع البرنامج التعليمي Delta Live Tables.

جداول دلتا مقابل جداول Delta Live

جدول Delta هو طريقة لتخزين البيانات في الجداول، بينما تسمح لك Delta Live Tables بوصف كيفية تدفق البيانات بين هذه الجداول بشكل تعريفي. Delta Live Tables هو إطار عمل تعريفي يدير العديد من جداول دلتا، من خلال إنشائها وإبقائها محدثة. باختصار، جداول Delta هي بنية جدول بيانات بينما Delta Live Tables هو إطار عمل مسار البيانات.

دلتا: مفتوح المصدر أو الملكية؟

قوة منصة Azure Databricks هي أنها لا تقفل العملاء في أدوات خاصة: يتم تشغيل الكثير من التكنولوجيا من خلال مشاريع مصدر مفتوح، والتي تساهم فيها Azure Databricks.

مشاريع Delta OSS هي أمثلة:

  • مشروع Delta Lake: تخزين مفتوح المصدر لمخزن بحيرة.
  • بروتوكول مشاركة دلتا: افتح بروتوكولا لمشاركة البيانات الآمنة.

Delta Live Tables هو إطار عمل خاص في Azure Databricks.

ما هي أشياء دلتا الأخرى على Azure Databricks؟

فيما يلي أوصاف للميزات الأخرى التي تتضمن Delta في اسمها.

مشاركة دلتا

يتيح Delta Sharing، وهو معيار مفتوح لمشاركة البيانات الآمنة، مشاركة البيانات بين المؤسسات بغض النظر عن نظامها الأساسي للحساب.

محرك دلتا

محسن استعلام للبيانات الضخمة التي تستخدم تقنية مصدر مفتوح Delta Lake المضمنة في Databricks. يعمل محرك Delta على تحسين أداء عمليات Spark SQL وDatabricks SQL وDataFrame عن طريق دفع الحساب إلى البيانات.

سجل معاملات Delta Lake (AKA DeltaLogs)

مصدر واحد للحقيقة يتعقب جميع التغييرات التي يقوم بها المستخدمون على الجدول والآلية التي من خلالها تضمن Delta Lake الذرية. راجع بروتوكول سجل معاملات Delta على GitHub.

سجل المعاملات هو المفتاح لفهم Delta Lake، لأنه مؤشر الترابط الشائع الذي يمر عبر العديد من أهم ميزاته:

  • معاملات ACID
  • معالجة بيانات التعريف القابلة للتطوير
  • السفر عبر الزمن
  • والمزيد.