ما هو كتالوج Unity؟

تقدم هذه المقالة كتالوج Unity، وهو حل حوكمة موحد للبيانات والأصول الذكاء الاصطناعي على مستودع Databricks.

نظرة عامة على كتالوج Unity

يوفر كتالوج Unity إمكانية مركزية للتحكم في الوصول والتدقيق والنسل واكتشاف البيانات عبر مساحات عمل Azure Databricks.

رسم تخطيطي كتالوج Unity

تتضمن الميزات الرئيسية في كتالوج Unity ما يلي:

  • تحديد مرة واحدة وآمنة في كل مكان: يوفر كتالوج Unity مكانا واحدا لإدارة نهج الوصول إلى البيانات التي تنطبق عبر جميع مساحات العمل.
  • نموذج الأمان المتوافق مع المعايير: يستند نموذج أمان كتالوج Unity إلى ANSI SQL القياسي ويسمح للمسؤولين بمنح أذونات في مستودع البيانات الحالي باستخدام بناء جملة مألوف، على مستوى الكتالوجات وقواعد البيانات (تسمى أيضا المخططات) والجداول وطرق العرض.
  • التدقيق المضمن و دورة حياة البيانات: يلتقط كتالوج Unity تلقائيا سجلات التدقيق على مستوى المستخدم التي تسجل الوصول إلى بياناتك. يلتقط كتالوج Unity أيضا بيانات دورة حياة البيانات التي تتعقب كيفية إنشاء أصول البيانات واستخدامها عبر جميع اللغات.
  • اكتشاف البيانات: يتيح لك كتالوج Unity وضع علامة على أصول البيانات وتوثيقها، ويوفر واجهة بحث لمساعدة مستهلكي البيانات في العثور على البيانات.
  • جداول النظام (معاينة عامة): يتيح لك كتالوج Unity الوصول بسهولة إلى البيانات التشغيلية لحسابك والاستعلام عنها، بما في ذلك سجلات التدقيق والاستخدام القابل للفوترة و دورة حياة البيانات.

كيف يحكم كتالوج Unity الوصول إلى البيانات والأصول الذكاء الاصطناعي في تخزين الكائنات السحابية؟

توصي Databricks بتكوين جميع الوصول إلى تخزين الكائنات السحابية باستخدام كتالوج Unity. راجع الاتصال إلى تخزين الكائنات السحابية باستخدام كتالوج Unity.

يقدم كتالوج Unity المفاهيم التالية لإدارة العلاقات بين البيانات في Azure Databricks وتخزين الكائنات السحابية:

إشعار

يوفر Lakehouse Federation عمليات تكامل للبيانات في أنظمة خارجية أخرى. لا يتم دعم هذه الكائنات بواسطة تخزين كائن السحابة.

نموذج كائن كتالوج Unity

في كتالوج Unity، يتدفق التسلسل الهرمي لكائنات البيانات الأساسية من metastore إلى الجدول أو وحدة التخزين:

  • Metastore: حاوية المستوى الأعلى لبيانات التعريف. يعرض كل metastore مساحة اسم من ثلاثة مستويات (catalog.schema.table) تنظم بياناتك.
  • الكتالوج: الطبقة الأولى من التسلسل الهرمي للكائنات، المستخدمة لتنظيم أصول البيانات.
  • المخطط: تعرف أيضا بقواعد البيانات، والمخططات هي الطبقة الثانية من التسلسل الهرمي للكائنات وتحتوي على جداول وطرق عرض.
  • الجداول وطرق العرض ووحدات التخزين: في أدنى مستوى في التسلسل الهرمي لكائن البيانات توجد الجداول وطرق العرض ووحدات التخزين. توفر وحدات التخزين حوكمة للبيانات غير الجدولية.
  • النماذج: على الرغم من أنها ليست، بدقة، أصول البيانات، يمكن أيضا إدارة النماذج المسجلة في كتالوج Unity والموجودة في أدنى مستوى في التسلسل الهرمي للكائنات.

رسم تخطيطي لنموذج كائن كتالوج Unity

هذه طريقة عرض مبسطة لكائنات كتالوج Unity القابلة للتأمين. لمزيد من التفاصيل، راجع الكائنات القابلة للتأمين في كتالوج Unity.

يمكنك الرجوع إلى جميع البيانات في كتالوج Unity باستخدام مساحة اسم من ثلاثة مستويات: catalog.schema.asset، حيث asset يمكن أن يكون جدولا أو طريقة عرض أو وحدة تخزين أو نموذج.

المخازن الوصفية

metastore هو حاوية المستوى الأعلى من الكائنات في كتالوج Unity. يسجل بيانات التعريف حول البيانات والأصول الذكاء الاصطناعي والأذونات التي تحكم الوصول إليها. يجب على مسؤولي حساب Azure Databricks إنشاء مخزن بيانات تعريف واحد لكل منطقة يعملون فيها وتعيينهم إلى مساحات عمل Azure Databricks في نفس المنطقة. لكي تستخدم مساحة العمل كتالوج Unity، يجب أن تحتوي على مخزن بيانات تعريف كتالوج Unity مرفق.

يمكن تكوين metastore اختياريا باستخدام موقع تخزين مدار في حاوية Azure Data Lake Storage Gen2 أو مستودع Cloudflare R2 في حساب التخزين السحابي الخاص بك. راجع التخزين المدار.

إشعار

يختلف metastore هذا عن Hive metastore المضمن في مساحات عمل Azure Databricks التي لم يتم تمكينها ل كتالوج Unity. إذا كانت مساحة العمل الخاصة بك تتضمن مخزنا قديما ل Hive metastore، فستظل البيانات الموجودة في metastore هذه متاحة جنبا إلى جنب مع البيانات المحددة في كتالوج Unity، في كتالوج يسمى hive_metastore. لاحظ أن الكتالوج hive_metastore لا تتم إدارته بواسطة كتالوج Unity ولا يستفيد من نفس مجموعة الميزات مثل الكتالوجات المحددة في كتالوج Unity.

راجع إنشاء مخزن بيانات تعريف كتالوج Unity.

كتالوجات

الكتالوج هو الطبقة الأولى من مساحة الاسم ثلاثية المستوى في كتالوج Unity. يتم استخدامه لتنظيم أصول البيانات الخاصة بك. يمكن للمستخدمين رؤية جميع الكتالوجات التي تم تعيين إذن البيانات عليها.USE CATALOG

اعتمادا على كيفية إنشاء مساحة العمل وتمكينها ل Unity Catalog، قد يكون لدى المستخدمين أذونات افتراضية على الكتالوجات التي تم توفيرها تلقائيا، بما في main ذلك الكتالوج أو كتالوج مساحة العمل (<workspace-name>). لمزيد من المعلومات، راجع امتيازات المستخدم الافتراضية.

راجع إنشاء الكتالوجات وإدارتها.

المخططات

المخطط (يسمى أيضا قاعدة بيانات) هو الطبقة الثانية من مساحة الاسم ثلاثية المستوى في كتالوج Unity. ينظم المخطط الجداول وطرق العرض. يمكن للمستخدمين رؤية جميع المخططات التي تم تعيين USE SCHEMA الإذن عليها، جنبا إلى جنب مع الإذن في USE CATALOG الكتالوج الأصل للمخطط. للوصول إلى جدول أو طريقة عرض أو سردها في مخطط، يجب أن يكون لدى SELECT المستخدمين أيضا إذن في الجدول أو طريقة العرض.

إذا تم تمكين مساحة العمل الخاصة بك ل Unity Catalog يدويا، فإنها تتضمن مخططا افتراضيا مسمى default في الكتالوج main الذي يمكن لجميع المستخدمين في مساحة العمل الوصول إليه. إذا تم تمكين مساحة العمل الخاصة بك ل "كتالوج Unity" تلقائيا وتتضمن كتالوج، يحتوي هذا الكتالوج <workspace-name> على مخطط مسمى default يمكن لجميع المستخدمين في مساحة العمل الوصول إليه.

راجع إنشاء المخططات (قواعد البيانات) وإدارتها.

الجداول

يوجد جدول في الطبقة الثالثة من مساحة الاسم ثلاثية المستوى في كتالوج Unity. يحتوي على صفوف من البيانات. لإنشاء جدول، يجب أن يكون لدى CREATE المستخدمين أذونات و USE SCHEMA على المخطط، ويجب أن يكون لديهم الإذن في USE CATALOG الكتالوج الأصل الخاص به. للاستعلام عن جدول، يجب أن يكون لدى SELECT المستخدمين الإذن الموجود في الجدول، USE SCHEMA والإذن على المخطط الأصل الخاص به، والإذن الموجود USE CATALOG في الكتالوج الأصل الخاص به.

يمكن إدارة جدول أو خارجي.

الجداول المدارة

الجداول المدارة هي الطريقة الافتراضية لإنشاء جداول في كتالوج Unity. يدير كتالوج Unity دورة الحياة وتخطيط الملف لهذه الجداول. يجب عدم استخدام أدوات خارج Azure Databricks لمعالجة الملفات في هذه الجداول مباشرة. تستخدم الجداول المدارة دائما تنسيق جدول Delta .

بالنسبة لمساحات العمل التي تم تمكينها لكتالوج Unity يدويا، يتم تخزين الجداول المدارة في موقع التخزين الجذر الذي تقوم بتكوينه عند إنشاء metastore. يمكنك اختياريا تحديد مواقع تخزين الجدول المدارة على مستويات الكتالوج أو المخطط، مع تجاوز موقع التخزين الجذر.

بالنسبة لمساحات العمل التي تم تمكينها ل Unity Catalog تلقائيا، يكون موقع تخزين جذر metastore اختياريا، ويتم تخزين الجداول المدارة عادة على مستويات الكتالوج أو المخطط.

عند إسقاط جدول مدار، يتم حذف بياناته الأساسية من مستأجر السحابة في غضون 30 يوما.

راجع الجداول المدارة.

الجداول الخارجية

الجداول الخارجية هي جداول لا تتم إدارة دورة حياة البيانات وتخطيط الملف بواسطة كتالوج Unity. استخدم الجداول الخارجية لتسجيل كميات كبيرة من البيانات الموجودة في كتالوج Unity، أو إذا كنت تحتاج إلى الوصول المباشر إلى البيانات باستخدام أدوات خارج مجموعات Azure Databricks أو مستودعات Databricks SQL.

عند إسقاط جدول خارجي، لا يحذف كتالوج Unity البيانات الأساسية. يمكنك إدارة الامتيازات على الجداول الخارجية واستخدامها في الاستعلامات بنفس الطريقة التي تدير بها الجداول المدارة.

يمكن للجداول الخارجية استخدام تنسيقات الملفات التالية:

  • دلتا
  • CSV
  • JSON
  • AVRO
  • PARQUET
  • ORC
  • TEXT

راجع الجداول الخارجية.

طرق عرض

طريقة العرض هي كائن للقراءة فقط تم إنشاؤه من جدول واحد أو أكثر وطرق عرض في metastore. وهو موجود في الطبقة الثالثة من مساحة الاسم ثلاثية المستوى في كتالوج Unity. يمكن إنشاء طريقة عرض من الجداول وطرق العرض الأخرى في مخططات وكتالوجات متعددة. يمكنك إنشاء طرق عرض ديناميكية لتمكين أذونات مستوى الصف والعمود.

راجع إنشاء طريقة عرض ديناميكية.

وحدات التخزين

يوجد وحدة تخزين في الطبقة الثالثة من مساحة الاسم ثلاثية المستوى في كتالوج Unity. وحدات التخزين هي عناصر مشابهة للجداول وطرق العرض والكائنات الأخرى المنظمة ضمن مخطط في كتالوج Unity.

تحتوي وحدات التخزين على دلائل وملفات للبيانات المخزنة بأي تنسيق. توفر وحدات التخزين وصولا غير جدولي إلى البيانات، ما يعني أنه لا يمكن تسجيل الملفات في وحدات التخزين كجداول.

  • لإنشاء وحدة تخزين، يجب أن يكون لدى CREATE VOLUME المستخدمين أذونات و USE SCHEMA على المخطط، ويجب أن يكون لديهم الإذن في USE CATALOG الكتالوج الأصل الخاص به.
  • لقراءة الملفات والدلائل المخزنة داخل وحدة تخزين، يجب أن يكون لدى READ VOLUME المستخدمين الإذن، USE SCHEMA والإذن على المخطط الأصل الخاص به، والإذن على USE CATALOG الكتالوج الأصل الخاص به.
  • لإضافة ملفات ودلائل مخزنة داخل وحدة تخزين أو إزالتها أو تعديلها، يجب أن يكون لدى WRITE VOLUME المستخدمين الإذن والإذن USE SCHEMA على المخطط الأصل الخاص به والإذن الموجود USE CATALOG في الكتالوج الأصل الخاص به.

يمكن إدارة وحدة التخزين أو خارجها.

إشعار

عند تعريف وحدة تخزين، يتم التحكم في وصول URI السحابي إلى البيانات ضمن مسار وحدة التخزين بواسطة أذونات وحدة التخزين.

وحدات التخزين المدارة

تعد وحدات التخزين المدارة حلا مناسبا عندما تريد توفير موقع تحكم للعمل مع الملفات غير الجدولية.

تخزن وحدات التخزين المدارة الملفات في موقع التخزين الافتراضي في كتالوج Unity للمخطط الذي يتم تضمينها فيه. بالنسبة لمساحات العمل التي تم تمكينها لكتالوج Unity يدويا، يتم تخزين وحدات التخزين المدارة في موقع التخزين الجذر الذي تقوم بتكوينه عند إنشاء metastore. يمكنك اختياريا تحديد مواقع تخزين وحدة التخزين المدارة على مستويات الكتالوج أو المخطط، مع تجاوز موقع التخزين الجذر. بالنسبة لمساحات العمل التي تم تمكينها ل Unity Catalog تلقائيا، يكون موقع تخزين جذر metastore اختياريا، ويتم عادة تخزين وحدات التخزين المدارة على مستويات الكتالوج أو المخطط.

تتحكم الأسبقية التالية في الموقع المستخدم لوحدات التخزين المدارة:

  • موقع المخطط
  • موقع الكتالوج
  • موقع تخزين جذر مخزن بيانات تعريف كتالوج Unity

عند حذف وحدة تخزين مدارة، يتم أيضا حذف الملفات المخزنة في وحدة التخزين هذه من مستأجر السحابة في غضون 30 يوما.

راجع ما هي وحدة التخزين المدارة؟.

وحدات التخزين الخارجية

يتم تسجيل وحدة تخزين خارجية في موقع خارجي لكتالوج Unity وتوفر الوصول إلى الملفات الموجودة في التخزين السحابي دون الحاجة إلى ترحيل البيانات. يجب أن يكون لدى CREATE EXTERNAL VOLUME المستخدمين الإذن على الموقع الخارجي لإنشاء وحدة تخزين خارجية.

تدعم وحدات التخزين الخارجية سيناريوهات حيث يتم إنتاج الملفات بواسطة أنظمة أخرى ويتم تنظيمها للوصول من داخل Azure Databricks باستخدام تخزين الكائن أو حيث تتطلب الأدوات خارج Azure Databricks الوصول المباشر إلى الملفات.

لا يدير كتالوج Unity دورة حياة الملفات وتخطيطها في وحدات التخزين الخارجية. عند إسقاط وحدة تخزين خارجية، لا يحذف كتالوج Unity البيانات الأساسية.

راجع ما هي وحدة التخزين الخارجية؟.

النماذج

يوجد النموذج في الطبقة الثالثة من مساحة الاسم ثلاثية المستوى في كتالوج Unity. في هذا السياق، يشير "النموذج" إلى نموذج التعلم الآلي المسجل في سجل نموذج MLflow. لإنشاء نموذج في كتالوج Unity، يجب أن يتمتع المستخدمون بامتياز CREATE MODEL الكتالوج أو المخطط. يجب أن يكون لدى المستخدم أيضا الامتياز على USE CATALOG الكتالوج الأصل وعلى USE SCHEMA المخطط الأصل.

التخزين المدار

يمكنك تخزين الجداول المدارة ووحدات التخزين المدارة في أي من هذه المستويات في التسلسل الهرمي لكائن كتالوج Unity: metastore أو الكتالوج أو المخطط. يتجاوز التخزين في المستويات الدنيا في التسلسل الهرمي التخزين المحدد على مستويات أعلى.

عندما يقوم مسؤول الحساب بإنشاء metastore يدويا، يكون لديه خيار تعيين موقع تخزين في حاوية Azure Data Lake Storage Gen2 أو مستودع Cloudflare R2 في حساب التخزين السحابي الخاص بك لاستخدامه كمساحة تخزين على مستوى metastore للجداول ووحدات التخزين المدارة. إذا تم تعيين موقع تخزين مدار على مستوى metastore، فإن مواقع التخزين المدارة على مستوى الكتالوج والمخطط اختيارية. ومع ذلك، فإن التخزين على مستوى metastore اختياري، ويوصي Databricks بتعيين التخزين المدار على مستوى الكتالوج لعزل البيانات المنطقية. راجع كتل إنشاء إدارة البيانات وعزل البيانات.

هام

إذا تم تمكين مساحة العمل الخاصة بك ل Unity Catalog تلقائيا، تم إنشاء مخزن بيانات تعريف كتالوج Unity بدون تخزين مدار على مستوى metastore. يمكنك اختيار إضافة تخزين على مستوى metastore، ولكن توصي Databricks بتعيين التخزين المدار على مستويات الكتالوج والمخطط. للمساعدة في تحديد ما إذا كنت بحاجة إلى تخزين على مستوى metastore، راجع (اختياري) إنشاء تخزين على مستوى metastore ويتم فصل البيانات فعليا في التخزين.

يحتوي التخزين المدار على الخصائص التالية:

  • تخزن الجداول المدارة ووحدات التخزين المدارة البيانات وملفات بيانات التعريف في التخزين المدار.
  • لا يمكن أن تتداخل مواقع التخزين المدارة مع الجداول الخارجية أو وحدات التخزين الخارجية.

يصف الجدول التالي كيفية الإعلان عن التخزين المدار وربطه بعناصر كتالوج Unity:

كائن كتالوج Unity المقترن كيفية التعيين العلاقة بالمواقع الخارجية
Metastore تم تكوينه بواسطة مسؤول الحساب أثناء إنشاء metastore أو إضافته بعد إنشاء metastore إذا لم يتم تحديد تخزين عند الإنشاء. لا يمكن تراكب موقع خارجي.
Catalog محدد أثناء إنشاء الكتالوج باستخدام MANAGED LOCATION الكلمة الأساسية . يجب أن يكون مضمنا داخل موقع خارجي.
مخطط محدد أثناء إنشاء المخطط باستخدام MANAGED LOCATION الكلمة الأساسية . يجب أن يكون مضمنا داخل موقع خارجي.

يستخدم موقع التخزين المدار المستخدم لتخزين البيانات وبيانات التعريف للجداول المدارة ووحدات التخزين المدارة القواعد التالية:

  • إذا كان المخطط الذي يحتوي على موقع مدار، يتم تخزين البيانات في الموقع المدار للمخطط.
  • إذا لم يكن للمخطط الذي يحتوي على موقع مدار ولكن الكتالوج يحتوي على موقع مدار، يتم تخزين البيانات في الموقع المدار للكتالوج.
  • إذا لم يكن للمخطط الذي يحتوي على أو الكتالوج الذي يحتوي على موقع مدار، يتم تخزين البيانات في الموقع المدار metastore.

بيانات اعتماد التخزين والمواقع الخارجية

لإدارة الوصول إلى التخزين السحابي الأساسي للجداول الخارجية ووحدات التخزين الخارجية والتخزين المدار، يستخدم كتالوج Unity أنواع العناصر التالية:

راجع الاتصال إلى تخزين الكائنات السحابية باستخدام كتالوج Unity.

إدارة الهوية لكتالوج Unity

يستخدم كتالوج Unity الهويات في حساب Azure Databricks لحل المستخدمين وكيانات الخدمة والمجموعات وفرض الأذونات.

لتكوين الهويات في الحساب، اتبع الإرشادات الواردة في إدارة المستخدمين وكيانات الخدمة والمجموعات. راجع هؤلاء المستخدمين وكيانات الخدمة والمجموعات عند إنشاء نهج التحكم في الوصول في كتالوج Unity.

يجب أيضا إضافة مستخدمي كتالوج Unity وأساسيات الخدمة والمجموعات إلى مساحات العمل للوصول إلى بيانات كتالوج Unity في دفتر ملاحظات أو استعلام Databricks SQL أو مستكشف الكتالوج أو أمر واجهة برمجة تطبيقات REST. يسمى تعيين المستخدمين وكيانات الخدمة والمجموعات إلى مساحات العمل اتحاد الهوية.

يتم تمكين جميع مساحات العمل التي تحتوي على مخزن بيانات تعريف كتالوج Unity مرفق بها لاتحاد الهوية.

اعتبارات خاصة للمجموعات

أي مجموعات موجودة بالفعل في مساحة العمل تسمى Workspace local في وحدة تحكم الحساب. لا يمكن استخدام هذه المجموعات المحلية لمساحة العمل في كتالوج Unity لتعريف نهج الوصول. يجب استخدام مجموعات على مستوى الحساب. إذا تمت الإشارة إلى مجموعة مساحة عمل محلية في أمر، فسيرجع هذا الأمر خطأ بأنه لم يتم العثور على المجموعة. إذا استخدمت مسبقا مجموعات مساحة العمل المحلية لإدارة الوصول إلى دفاتر الملاحظات وغيرها من البيانات الاصطناعية، فستظل هذه الأذونات سارية المفعول.

راجع إدارة المجموعات.

أدوار مسؤول كتالوج Unity

يشارك مسؤولو الحساب ومسؤولو metastore ومسؤولو مساحة العمل في إدارة كتالوج Unity:

راجع مسؤول الامتيازات في كتالوج Unity.

أذونات البيانات في كتالوج Unity

في كتالوج Unity، تكون البيانات آمنة بشكل افتراضي. في البداية، لا يمكن للمستخدمين الوصول إلى البيانات في metastore. يمكن منح الوصول إما من قبل مسؤول metastore أو مالك كائن أو مالك الكتالوج أو المخطط الذي يحتوي على الكائن. الكائنات القابلة للتأمين في كتالوج Unity هرمية ويتم توريث الامتيازات لأسفل.

يمكنك تعيين الأذونات وإبطالها باستخدام مستكشف الكتالوج أو أوامر SQL أو واجهات برمجة تطبيقات REST.

راجع إدارة الامتيازات في كتالوج Unity.

أوضاع الوصول إلى الحوسبة والمجموعة المدعومة ل Unity Catalog

يتم دعم كتالوج Unity على المجموعات التي تقوم بتشغيل Databricks Runtime 11.3 LTS أو أعلى. يتم دعم كتالوج Unity بشكل افتراضي على جميع إصدارات حساب مستودع SQL.

لا توفر المجموعات التي تعمل على الإصدارات السابقة من Databricks Runtime الدعم لجميع ميزات ووظائف GA لكتالوج Unity.

للوصول إلى البيانات في كتالوج Unity، يجب تكوين المجموعات باستخدام وضع الوصول الصحيح. كتالوج Unity آمن بشكل افتراضي. إذا لم يتم تكوين نظام مجموعة بأحد أوضاع الوصول الممكنة على كتالوج Unity (أي مشترك أو معين)، فلن يتمكن نظام المجموعة من الوصول إلى البيانات في كتالوج Unity. راجع أوضاع الوصول.

للحصول على معلومات مفصلة حول تغييرات وظائف كتالوج Unity في كل إصدار من إصدارات وقت تشغيل Databricks، راجع ملاحظات الإصدار.

تختلف قيود كتالوج Unity حسب وضع الوصول وإصدار وقت تشغيل Databricks. راجع قيود وضع الوصول إلى الحساب لكتالوج Unity.

دورة حياة البيانات للكتالوج Unity

يمكنك استخدام كتالوج Unity لالتقاط دورة حياة بيانات وقت التشغيل عبر الاستعلامات بأي لغة يتم تنفيذها على مجموعة Azure Databricks أو مستودع SQL. يتم التقاط دورة حياة البيانات وصولا إلى مستوى العمود، وتتضمن دفاتر الملاحظات وسير العمل ولوحات المعلومات المتعلقة بالاستعلام. لمعرفة المزيد، راجع التقاط دورة حياة البيانات وعرضها باستخدام كتالوج Unity.

Lakehouse Federation وUnity Catalog

Lakehouse Federation هو النظام الأساسي لاتحاد الاستعلامات ل Azure Databricks. يصف مصطلح اتحاد الاستعلام مجموعة من الميزات التي تمكن المستخدمين والأنظمة من تشغيل الاستعلامات مقابل مصادر بيانات متعددة منعزلة دون الحاجة إلى ترحيل جميع البيانات إلى نظام موحد.

يستخدم Azure Databricks كتالوج Unity لإدارة اتحاد الاستعلام. يمكنك استخدام كتالوج Unity لتكوين اتصالات للقراءة فقط بأنظمة قواعد البيانات الخارجية الشائعة وإنشاء كتالوجات خارجية تعكس قواعد البيانات الخارجية. تضمن أدوات إدارة البيانات و دورة حياة البيانات في كتالوج Unity إدارة الوصول إلى البيانات وتدقيعها لجميع الاستعلامات الموحدة التي أجراها المستخدمون في مساحات عمل Azure Databricks.

انظر ما هو اتحاد ليكهاوس.

كيف أعمل إعداد كتالوج Unity لمؤسستي؟

لمعرفة كيفية إعداد كتالوج Unity، راجع إعداد كتالوج Unity وإدارته.

المناطق المدعومة

تدعم جميع المناطق كتالوج Unity. للحصول على التفاصيل، راجع مناطق Azure Databricks.

تنسيقات ملفات البيانات المدعومة

يدعم كتالوج Unity تنسيقات الجدول التالية:

قيود كتالوج Unity

يحتوي كتالوج Unity على القيود التالية.

إشعار

إذا كان نظام المجموعة قيد التشغيل على إصدار Databricks Runtime أقل من 11.3 LTS، فقد تكون هناك قيود إضافية، غير مدرجة هنا. يتم دعم كتالوج Unity على Databricks Runtime 11.3 LTS أو أعلى.

تختلف قيود كتالوج Unity حسب وقت تشغيل Databricks ووضع الوصول. تحتوي أحمال عمل الدفق المنظم على قيود إضافية استنادا إلى وقت تشغيل Databricks ووضع الوصول. راجع قيود وضع الوصول إلى الحساب لكتالوج Unity.

  • لا تدعم أحمال العمل في R استخدام طرق العرض الديناميكية للأمان على مستوى الصف أو مستوى العمود.

  • في Databricks Runtime 13.3 LTS وما فوق، يتم دعم النسخ الضحلة لإنشاء جداول مدارة كتالوج Unity من الجداول المدارة الموجودة في كتالوج Unity. في Databricks Runtime 12.2 LTS والإصدارات أدناه، لا يوجد دعم للنسخ الضحلة في كتالوج Unity. راجع استنساخ سطحي لجداول كتالوج Unity.

  • التجميع غير معتمد لجداول كتالوج Unity. إذا قمت بتشغيل الأوامر التي تحاول إنشاء جدول مستودع في كتالوج Unity، فسيطرح استثناء.

  • يمكن أن تؤدي الكتابة إلى نفس المسار أو جدول Delta Lake من مساحات العمل في مناطق متعددة إلى أداء غير موثوق به إذا كانت بعض المجموعات تصل إلى كتالوج Unity والبعض الآخر لا.

  • أنظمة الأقسام المخصصة التي تم إنشاؤها باستخدام أوامر مثل ALTER TABLE ADD PARTITION غير مدعومة للجداول في كتالوج Unity. يمكن للكتالوج Unity الوصول إلى الجداول التي تستخدم تقسيم نمط الدليل.

  • يتم دعم وضع الكتابة فوق لعمليات الكتابة DataFrame في كتالوج Unity فقط لجداول Delta، وليس لتنسيقات الملفات الأخرى. يجب أن يكون لدى المستخدم الامتياز CREATE على المخطط الأصل ويجب أن يكون مالك الكائن الموجود أو أن يكون لديه الامتياز MODIFY على الكائن.

  • في Databricks Runtime 13.3 LTS وما فوق، يتم دعم Python scalar UDFs. في Databricks Runtime 12.2 LTS وما يلي، لا يمكنك استخدام Python UDFs، بما في ذلك UDAFs وUDTFs وPandas على Spark (applyInPandas و mapInPandas).

  • في Databricks Runtime 14.2 وما فوق، يتم دعم Scala UDFs العددية على المجموعات المشتركة. في Databricks Runtime 14.1 والإدناه، لا يتم دعم جميع Scala UDFs على المجموعات المشتركة.

  • لا يمكن استخدام المجموعات التي تم إنشاؤها مسبقا في مساحة عمل (أي مجموعات على مستوى مساحة العمل) في عبارات منح كتالوج Unity. هذا لضمان عرض متناسق للمجموعات التي يمكن أن تمتد عبر مساحات العمل. لاستخدام المجموعات في عبارات GRANT، قم بإنشاء مجموعاتك على مستوى الحساب وتحديث أي أتمتة لإدارة المجموعة أو الأساسية (مثل SCIM و Okta وموصلات معرف Microsoft Entra (المعروف سابقا باسم Azure Active Directory)، وTerraform) للإشارة إلى نقاط نهاية الحساب بدلا من نقاط نهاية مساحة العمل. راجع الفرق بين مجموعات الحسابات والمجموعات المحلية لمساحة العمل.

  • تجمعات مؤشرات ترابط Scala القياسية غير مدعومة. بدلا من ذلك، استخدم تجمعات مؤشرات الترابط الخاصة في org.apache.spark.util.ThreadUtils، على سبيل المثال، org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. ومع ذلك، فإن تجمعات مؤشرات الترابط التالية في ThreadUtils غير مدعومة: ThreadUtils.newForkJoinPool وأي ScheduledExecutorService تجمع مؤشر ترابط.

  • يتم دعم تسجيل التدقيق لأحداث كتالوج Unity على مستوى مساحة العمل فقط. لا يتم تسجيل الأحداث التي تحدث على مستوى الحساب دون الرجوع إلى مساحة عمل، مثل إنشاء metastore.

تنطبق القيود التالية على جميع أسماء الكائنات في كتالوج Unity:

  • لا يمكن أن تتجاوز أسماء الكائنات 255 حرفا.
  • الأحرف الخاصة التالية غير مسموح بها:
    • الفترة الزمنية (.)
    • مسافة ( )
    • شرطة مائلة للأمام (/)
    • كافة أحرف التحكم ASCII (00-1F سداسي)
    • حرف DELETE (سداسي عشري 7F)
  • يخزن كتالوج Unity جميع أسماء الكائنات كأحرف صغيرة.
  • عند الإشارة إلى أسماء UC في SQL، يجب استخدام backticks للإلغاء الأسماء التي تحتوي على أحرف خاصة مثل الواصلات (-).

إشعار

يمكن أن تستخدم أسماء الأعمدة أحرفا خاصة، ولكن يجب إلغاء الاسم باستخدام backticks في كافة عبارات SQL إذا تم استخدام أحرف خاصة. يحافظ كتالوج Unity على غلاف اسم العمود، ولكن الاستعلامات مقابل جداول كتالوج Unity غير حساسة لحالة الأحرف.

توجد قيود إضافية للنماذج في كتالوج Unity. راجع القيود المفروضة على دعم كتالوج Unity.

حصص الموارد النسبية

يفرض كتالوج Unity حصص الموارد النسبية على جميع الكائنات القابلة للتأمين. تحترم الحدود نفس التنظيم الهرمي في كتالوج Unity. إذا كنت تتوقع تجاوز حدود الموارد هذه، فاتصل بفريق حساب Azure Databricks.

يتم التعبير عن قيم الحصة النسبية أدناه بالنسبة للكائن الأصل (أو الأجداد) في كتالوج Unity.

‏‏الكائن Parent القيمة‬
طاولتنا Schema 10000
طاولتنا مخزن بيانات التعريف 100000
وحدة التخزين Schema 10000
وظيفة Schema 10000
نموذج مسجل Schema 1000
نموذج مسجل مخزن بيانات التعريف 5000
إصدار النموذج نموذج مسجل 10000
إصدار النموذج مخزن بيانات التعريف 100000
Schema الكتالوج 10000
الكتالوج مخزن بيانات التعريف 1000
الاتصال مخزن بيانات التعريف 1000
بيانات اعتماد التخزين مخزن بيانات التعريف 200
الموقع الخارجي مخزن بيانات التعريف 500

للحصول على حدود مشاركة دلتا، راجع حصص الموارد النسبية.