الاتصال إلى تخزين كائن السحابة باستخدام كتالوج Unity

تقدم هذه المقالة نظرة عامة على تكوينات اتصال التخزين السحابي المطلوبة للعمل مع البيانات باستخدام كتالوج Unity.

توصي Databricks باستخدام كتالوج Unity لإدارة الوصول إلى جميع البيانات المخزنة في تخزين الكائنات السحابية. يوفر كتالوج Unity مجموعة من الأدوات لتكوين اتصالات آمنة لتخزين كائن السحابة. توفر هذه الاتصالات الوصول لإكمال الإجراءات التالية:

  • استيعاب البيانات الأولية في مستودع.
  • إنشاء وقراءة الجداول المدارة في التخزين السحابي الآمن.
  • تسجيل أو إنشاء جداول خارجية تحتوي على بيانات جدولية.
  • قراءة وكتابة البيانات غير المنظمة.

تحذير

لا تمنح المستخدمين النهائيين حق الوصول على مستوى التخزين إلى الجداول أو وحدات التخزين المدارة في كتالوج Unity. وهذا يعرض أمان البيانات وحوكمتها للخطر.

منح المستخدمين حق الوصول المباشر على مستوى التخزين إلى تخزين الموقع الخارجي في Azure Data Lake Storage Gen2 لا يحترم أي أذونات تم منحها أو عمليات التدقيق التي يحتفظ بها كتالوج Unity. سيتجاوز الوصول المباشر التدقيق والنسل وميزات الأمان والمراقبة الأخرى في كتالوج Unity، بما في ذلك التحكم في الوصول والأذونات. أنت مسؤول عن إدارة الوصول المباشر إلى التخزين من خلال Azure Data Lake Storage Gen2 والتأكد من أن المستخدمين لديهم الأذونات المناسبة الممنوحة عبر Fabric.

تجنب جميع السيناريوهات التي تمنح حق الوصول المباشر للكتابة على مستوى التخزين للمستودعات التي تخزن جداول Databricks المدارة. يمكن أن يؤدي تعديل أي كائنات أو حذفها أو تطويرها مباشرة من خلال التخزين الذي تمت إدارته في الأصل بواسطة كتالوج Unity إلى تلف البيانات.

إشعار

إذا تم إنشاء مساحة العمل قبل 9 نوفمبر 2023، فقد لا يتم تمكينها لكتالوج Unity. يجب على مسؤول الحساب تمكين كتالوج Unity لمساحة العمل الخاصة بك. راجع تمكين مساحة عمل كتالوج Unity.

كيف يقوم كتالوج Unity بتوصيل تخزين الكائنات ب Azure Databricks؟

يدعم Azure Databricks كلا من حاويات Azure Data Lake Storage Gen2 ومستودعات Cloudflare R2 (المعاينة العامة) كمواقع تخزين سحابية للبيانات والأصول الذكاء الاصطناعي المسجلة في كتالوج Unity. R2 مخصص بشكل أساسي لحالات الاستخدام التي تريد فيها تجنب رسوم خروج البيانات، مثل مشاركة دلتا عبر السحب والمناطق. لمزيد من المعلومات، راجع استخدام النسخ المتماثلة Cloudflare R2 أو ترحيل التخزين إلى R2.

لإدارة الوصول إلى التخزين السحابي الأساسي الذي يحتوي على جداول ووحدات تخزين، يستخدم كتالوج Unity أنواع الكائنات التالية:

  • تمثل بيانات اعتماد التخزين آلية مصادقة وتخويل للوصول إلى البيانات المخزنة على مستأجر السحابة الخاص بك، باستخدام هوية مدارة من Azure أو كيان خدمة لحاويات Azure Data Lake Storage Gen2 أو رمز R2 API المميز لمستودعات Cloudflare R2. تخضع كل بيانات اعتماد تخزين لسياسات التحكم في الوصول إلى كتالوج Unity التي تتحكم في المستخدمين والمجموعات التي يمكنها الوصول إلى بيانات الاعتماد. إذا لم يكن لدى المستخدم حق الوصول إلى بيانات اعتماد تخزين في كتالوج Unity، يفشل الطلب ولا يحاول كتالوج Unity المصادقة على مستأجر السحابة نيابة عن المستخدم. يجب منح إذن إنشاء بيانات اعتماد التخزين فقط للمستخدمين الذين يحتاجون إلى تحديد مواقع خارجية. راجع إنشاء بيانات اعتماد تخزين للاتصال ب Azure Data Lake Storage Gen2 وإنشاء بيانات اعتماد تخزين للاتصال ب Cloudflare R2.

  • الموقع الخارجي هو كائن يجمع بين مسار تخزين سحابي وبيانات اعتماد تخزين تخول الوصول إلى مسار التخزين السحابي. يخضع كل موقع تخزين لنهج التحكم في الوصول إلى كتالوج Unity التي تتحكم في المستخدمين والمجموعات التي يمكنها الوصول إلى بيانات الاعتماد. إذا لم يكن لدى المستخدم حق الوصول إلى موقع تخزين في كتالوج Unity، يفشل الطلب ولا يحاول كتالوج Unity المصادقة على مستأجر السحابة نيابة عن المستخدم. يجب منح إذن إنشاء مواقع خارجية واستخدامها فقط للمستخدمين الذين يحتاجون إلى إنشاء جداول خارجية أو وحدات تخزين خارجية أو مواقع تخزين مدارة. راجع إنشاء موقع خارجي لتوصيل التخزين السحابي ب Azure Databricks.

    يتم استخدام المواقع الخارجية لكل من أصول البيانات الخارجية، مثل الجداول الخارجية ووحدات التخزين الخارجية، وأصول البيانات المدارة، مثل الجداول المدارة ووحدات التخزين المدارة. لمزيد من المعلومات حول الفرق، راجع الجداول ووحدات التخزين.

    عند استخدام موقع خارجي لتخزين الجداول المدارة ووحدات التخزين المدارة، يسمى موقع تخزين مدار. يمكن أن توجد مواقع التخزين المدارة على مستوى metastore أو الكتالوج أو المخطط. توصي Databricks بتكوين مواقع التخزين المدارة على مستوى الكتالوج. إذا كنت بحاجة إلى عزل أكثر دقة، يمكنك تحديد مواقع التخزين المدارة على مستوى المخطط. لا تحتوي مساحات العمل التي تم تمكينها لكتالوج Unity تلقائيا على تخزين على مستوى metastore بشكل افتراضي، ولكن يمكنك تحديد موقع تخزين مدار على مستوى metastore لتوفير التخزين الافتراضي عند عدم تحديد تخزين على مستوى الكتالوج. تتلقى مساحات العمل التي تم تمكينها لكتالوج Unity يدويا موقع تخزين مدار على مستوى metastore بشكل افتراضي. راجع تحديد موقع تخزين مدار في أفضل ممارسات كتالوج Unity وUnity Catalog.

وحدات التخزين هي الكائن القابل للتأمين الذي يجب أن يستخدمه معظم مستخدمي Azure Databricks للتفاعل مباشرة مع البيانات غير الجدولية في تخزين كائن السحابة. راجع إنشاء وحدات التخزين والعمل معها.

إشعار

بينما يدعم كتالوج Unity الوصول المستند إلى المسار إلى الجداول الخارجية ووحدات التخزين الخارجية باستخدام معرفات URI للتخزين السحابي، يوصي Databricks بأن يقرأ المستخدمون جميع جداول كتالوج Unity ويكتبونها باستخدام أسماء الجداول والوصول إلى البيانات في وحدات التخزين باستخدام /Volumes المسارات.

الخطوات التالية

إذا كنت قد بدأت للتو باستخدام كتالوج Unity كمسؤول، فشاهد إعداد كتالوج Unity وإدارته.

إذا كنت مستخدما جديدا وكانت مساحة العمل الخاصة بك ممكنة بالفعل لكتالوج Unity، فشاهد البرنامج التعليمي: إنشاء الجدول الأول ومنح الامتيازات.