مقدمة

دلتا ليك هو مشروع مفتوح المصدر يمكن من بناء بنية Lakehouse على قمة بحيرات البيانات. توفر دلتا ليك معاملات ACID ومعالجة بيانات التعريف القابلة للتطوير ووحدة تدفق ومعالجة بيانات الدفعات فوق بحيرات البيانات الموجودة.

على وجه التحديد، دلتا ليك يقدم:

  • ACID المعاملات على Spark: تضمن مستويات العزل القابلة للتسلسل عدم رؤية القراء للبيانات غير المتسقة.
  • معالجة البيانات الوصفية القابلة للتطوير: وزعت الرافعة المالية Spark قوة المعالجة للتعامل مع جميع البيانات الوصفية لجداول على مقياس بيتابايت مع مليارات الملفات بسهولة.
  • تدفق وتوحيد الدفعات: جدول في بحيرة دلتا هو جدول دفعي بالإضافة إلى مصدر تدفق وبالوعة. تدفق البيانات استيعابها ، ردم دفعة تاريخية ، والاستفسارات التفاعلية كلها تعمل فقط من خارج منطقة الجزاء.
  • فرض المخطط: يعالج تلقائيا تباينات المخطط لمنع إدراج سجلات تالفة أثناء الابتلاع.
  • السفر عبر الزمن: يتيح إصدار البيانات عمليات التراجع، ومسارات التدقيق التاريخية الكاملة، وتجارب التعلم الآلي القابلة للاستنساخ.
  • Upserts وحذف: يدعم دمج وتحديث وحذف العمليات لتمكين حالات الاستخدام المعقدة مثل تغيير التقاط البيانات، ببطء تغيير البعد (SCD) العمليات، وتدفق upserts، وهلم جرا.

تجعل تحسينات محرك دلتا عمليات Delta Lake عالية الأداء ، مما يدعم مجموعة متنوعة من أعباء العمل التي تتراوح بين معالجة ETL على نطاق واسع إلى الاستعلامات التفاعلية المخصصة. للحصول على معلومات حول محرك دلتا، راجع محرك دلتا.

تشغيل سريع

يوفر الدلتا ليك كويكستارت لمحة عامة عن أساسيات العمل مع بحيرة دلتا. تظهر البداية السريعة كيفية إنشاء خط أنابيب يقرأ بيانات JSON في جدول دلتا، وتعديل الجدول، وقراءة الجدول، وعرض محفوظات الجدول، وتحسين الجدول.

بالنسبة إلى دفاتر الملاحظات Azure Databricks التي تعرض هذه الميزات، راجع دفاتر الملاحظات التمهيدية.

لتجربة Delta Lake، راجع التسجيل للحصول على Azure Databricks.

الموارد