استيعاب البيانات في مستودع Databricks

مقالة
03/01/2024

يقدم Azure Databricks مجموعة متنوعة من الطرق لمساعدتك على استيعاب البيانات في مستودع مدعوم من Delta Lake. توصي Databricks باستخدام أداة التحميل التلقائي لاستيعاب البيانات المتزايدة من تخزين الكائنات السحابية. توفر واجهة مستخدم إضافة البيانات عددا من الخيارات لتحميل الملفات المحلية بسرعة أو الاتصال بمصادر البيانات الخارجية.

تشغيل حمل عمل ETL الأول

إذا لم تكن قد استخدمت Auto Loader على Azure Databricks، فابدأ بالبرنامج التعليمي. راجع تشغيل حمل عمل ETL الأول على Azure Databricks.

محمل تلقائي

يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي دون إعداد إضافي. يوفر Loader التلقائي مصدر تدفق منظم يسمى cloudFiles. نظرا لمسار دليل الإدخال على تخزين الملفات السحابية، cloudFiles يقوم المصدر تلقائيا بمعالجة الملفات الجديدة عند وصولها، مع خيار معالجة الملفات الموجودة في هذا الدليل أيضا.

أتمتة ETL باستخدام جداول Delta Live وأداة التحميل التلقائي

يمكنك تبسيط توزيع البنية الأساسية القابلة للتطوير والاستيعاب التزايدي باستخدام أداة التحميل التلقائي وجداول Delta Live. لاحظ أن Delta Live Tables لا تستخدم التنفيذ التفاعلي القياسي الموجود في دفاتر الملاحظات، بدلا من ذلك مع التأكيد على نشر البنية الأساسية الجاهزة للإنتاج.

تحميل ملفات البيانات المحلية أو توصيل مصادر البيانات الخارجية

يمكنك تحميل ملفات البيانات المحلية بأمان أو استيعاب البيانات من مصادر خارجية لإنشاء جداول. راجع تحميل البيانات باستخدام واجهة مستخدم إضافة بيانات.

استيعاب البيانات في Azure Databricks باستخدام أدوات الجهات الخارجية

يتحقق Azure Databricks من صحة تكاملات شركاء التكنولوجيا التي تمكنك من استيعاب البيانات في Azure Databricks. تتيح عمليات التكامل هذه استيعاب بيانات منخفضة التعليمات البرمجية وقابلة للتطوير من مجموعة متنوعة من المصادر في Azure Databricks. راجع شركاء التكنولوجيا. يتم عرض بعض شركاء التكنولوجيا في الاتصال شريك Databricks، والذي يوفر واجهة مستخدم تبسط توصيل أدوات الجهات الخارجية ببيانات مستودعك.

COPY INTO

يسمح COPY INTO لمستخدمي SQL ب استيعاب البيانات بشكل متكرر وتدريجي من تخزين كائن السحابة في جداول Delta. يمكن استخدامه في Databricks SQL ودفاتر الملاحظات ووظائف Databricks.

متى تستخدم COPY INTO ومتى تستخدم "المحمل التلقائي"

فيما يلي بعض الأشياء التي يجب مراعاتها عند الاختيار بين أداة التحميل التلقائي و COPY INTO:

إذا كنت تريد استيعاب الملفات بترتيب الآلاف، يمكنك استخدام COPY INTO. إذا كنت تتوقع ملفات بترتيب الملايين أو أكثر بمرور الوقت، فاستخدم Auto Loader. يتطلب التحميل التلقائي عددا أقل من العمليات الإجمالية لاكتشاف الملفات مقارنة COPY INTO ب ويمكن تقسيم المعالجة إلى دفعات متعددة، ما يعني أن أداة التحميل التلقائي أقل تكلفة وأكثر كفاءة على نطاق واسع.
إذا كان مخطط البيانات الخاص بك سيتطور بشكل متكرر، فإن Auto Loader يوفر أفضل البدائيات حول استنتاج المخطط وتطوره. راجع تكوين استنتاج المخطط وتطوره في Auto Loader لمزيد من التفاصيل.
يمكن أن يكون تحميل مجموعة فرعية من الملفات المعاد تحميلها أسهل قليلا في الإدارة باستخدام COPY INTO. باستخدام Auto Loader، من الصعب إعادة معالجة مجموعة فرعية محددة من الملفات. ومع ذلك، يمكنك استخدام COPY INTO لإعادة تحميل المجموعة الفرعية من الملفات أثناء تشغيل دفق التحميل التلقائي في وقت واحد.
للحصول على تجربة استيعاب ملفات أكثر قابلية للتطوير وقوة، يمكن التحميل التلقائي مستخدمي SQL من الاستفادة من جداول الدفق. راجع تحميل البيانات باستخدام جداول الدفق في Databricks SQL.

للحصول على نظرة عامة موجزة والعرض التوضيحي ل Auto Loader، بالإضافة COPY INTOإلى ، شاهد فيديو YouTube التالي (دقيقتان).

مراجعة بيانات تعريف الملف التي تم التقاطها أثناء استيعاب البيانات

يلتقط Apache Spark تلقائيا بيانات حول الملفات المصدر أثناء تحميل البيانات. يتيح لك Azure Databricks الوصول إلى هذه البيانات باستخدام عمود بيانات تعريف الملف.

تحميل عمليات تصدير جدول البيانات إلى Azure Databricks

استخدم صفحة إنشاء جدول أو تعديله من تحميل الملفات لتحميل ملفات CSV أو TSV أو JSON. راجع إنشاء جدول أو تعديله باستخدام تحميل الملف.

ترحيل تطبيقات البيانات إلى Azure Databricks

ترحيل تطبيقات البيانات الموجودة إلى Azure Databricks حتى تتمكن من العمل مع البيانات من العديد من أنظمة المصدر على نظام أساسي واحد. راجع ترحيل تطبيقات البيانات إلى Azure Databricks.