نطاق النظام الأساسي للبحيرة

بيانات حديثة وإطار عمل النظام الأساسي الذكاء الاصطناعي

لمناقشة نطاق Databricks Data intelligence Platform، من المفيد أولا تحديد إطار عمل أساسي للبيانات الحديثة والنظام الأساسي الذكاء الاصطناعي:

إطار عمل تحليلات البيانات السحابية

نظرة عامة على نطاق البحيرة

يغطي Databricks Data Intelligence Platform إطار عمل النظام الأساسي للبيانات الحديث الكامل. وهي مبنية على بنية مستودع البيانات ويتم تشغيلها بواسطة محرك استخبارات البيانات الذي يفهم الصفات الفريدة لبياناتك. وهو أساس مفتوح وموحد لأحمال عمل ETL وML/الذكاء الاصطناعي وDWH/BI، ويوفر كتالوج Unity باعتباره البيانات المركزية وحل الحوكمة الذكاء الاصطناعي.

شخصيات إطار عمل النظام الأساسي

يغطي الإطار أعضاء فريق البيانات الأساسيين (الأشخاص) الذين يعملون مع التطبيقات في إطار العمل:

  • يوفر مهندسو البيانات لعلماء البيانات ومحللي الأعمال بيانات دقيقة وقابلة للتكرار لاتخاذ القرارات في الوقت المناسب والرؤى في الوقت الحقيقي. وهي تنفذ عمليات ETL متسقة وموثوقة للغاية لزيادة ثقة المستخدم والثقة في البيانات. وهي تضمن أن البيانات متكاملة بشكل جيد مع الركائز المختلفة للأعمال التجارية وعادة ما تتبع أفضل ممارسات هندسة البرمجيات.
  • يجمع علماء البيانات بين الخبرة التحليلية وفهم الأعمال لتحويل البيانات إلى رؤى استراتيجية ونماذج تنبؤية. إنهم بارعون في ترجمة تحديات الأعمال إلى حلول تستند إلى البيانات، سواء من خلال الرؤى التحليلية الاستعادية أو النمذجة التنبؤية التطلعية. الاستفادة من نمذجة البيانات وتقنيات التعلم الآلي، فإنها تصمم النماذج التي تكشف النقاب عن الأنماط والاتجاهات والتنبؤات من البيانات وتطويرها ونشرها. وهي تعمل كجسر، وتحويل سرد البيانات المعقدة إلى قصص مفهومة، وضمان أن أصحاب المصلحة في الأعمال لا يفهمون فحسب، بل يمكنهم أيضا العمل بناء على التوصيات المستندة إلى البيانات، مما يؤدي بدوره إلى اتباع نهج يركز على البيانات لحل المشكلات داخل المؤسسة.
  • يقود مهندسو التعلم الآلي (مهندسو التعلم الآلي) التطبيق العملي لعلوم البيانات في المنتجات والحلول من خلال بناء نماذج التعلم الآلي ونشرها وصيانتها. يركز تركيزها الأساسي على الجانب الهندسي لتطوير النموذج ونشره. يضمن مهندسو التعلم الآلي قوة أنظمة التعلم الآلي وموثوقيتها وقابليتها للتوسع في البيئات المباشرة، ويعالجون التحديات المتعلقة بجودة البيانات والبنية التحتية والأداء. من خلال دمج نماذج الذكاء الاصطناعي وML في العمليات التجارية التشغيلية والمنتجات التي تواجه المستخدم، فإنها تسهل استخدام علوم البيانات في حل تحديات الأعمال، ما يضمن أن النماذج لا تبقى فقط في الأبحاث ولكنها تدفع قيمة تجارية ملموسة.
  • يمكن محللو الأعمال أصحاب المصلحة وفرق الأعمال من البيانات القابلة للتنفيذ. غالبا ما يفسرون البيانات وينشئون تقارير أو وثائق أخرى للقيادة باستخدام أدوات المعلومات المهنية القياسية. وعادة ما تكون نقطة الاتصال لزملاء الأعمال والعمليات غير التقنيين لأسئلة التحليل السريع.
  • شركاء الأعمال هم أصحاب مصلحة مهمون في عالم أعمال متزايد الشبكات. يتم تعريفها على أنها شركة أو فرد تربطه علاقة رسمية مع شركة ما لتحقيق هدف مشترك، ويمكن أن تشمل البائعين والموردين والموزعين وغيرهم من شركاء الجهات الخارجية. تعد مشاركة البيانات جانبا مهما من جوانب الشراكات التجارية، لأنها تمكن من نقل البيانات وتبادلها لتعزيز التعاون واتخاذ القرارات المستندة إلى البيانات.

مجالات إطار عمل النظام الأساسي

يتكون النظام الأساسي من مجالات متعددة:

  • التخزين: في السحابة، يتم تخزين البيانات بشكل أساسي في مخازن كائنات سحابية قابلة للتطوير وفعالة ومرنة يوفرها موفرو السحابة.
  • الحوكمة: القدرات حول إدارة البيانات، مثل التحكم في الوصول والتدقيق وإدارة بيانات التعريف وتعقب دورة حياة البيانات ومراقبة جميع البيانات والأصول الذكاء الاصطناعي.
  • محرك الذكاء الاصطناعي: يوفر محرك الذكاء الاصطناعي قدرات الذكاء الاصطناعي توليدية للنظام الأساسي بأكمله.
  • استيعاب وتحويل قدرات أحمال عمل ETL.
  • التحليلات المتقدمة، التعلم الآلي الذكاء الاصطناعي جميع القدرات حول التعلم الآلي، الذكاء الاصطناعي، الذكاء الاصطناعي التوليدية، وكذلك دفق التحليلات.
  • مستودع البيانات المجال الذي يدعم حالات استخدام DWH و BI.
  • مجال التنسيق لإدارة سير العمل المركزي و
  • أدوات ETL وDS: الأدوات الأمامية التي يستخدمها مهندسو البيانات وعلماء البيانات ومهندسو التعلم الآلي بشكل أساسي للعمل.
  • أدوات المعلومات المهنية: أدوات الواجهة الأمامية التي يستخدمها محللو المعلومات المهنية بشكل أساسي للعمل.
  • التعاون: قدرات مشاركة البيانات بين طرفين أو أكثر.

نطاق منصة Databricks

يمكن تعيين Databricks Data Intelligence Platform ومكوناته إلى إطار العمل بالطريقة التالية:

نطاق البحيرة

تنزيل: نطاق lakehouse - مكونات Databricks

والأهم من ذلك، يغطي Databricks Data Intelligence Platform جميع أحمال العمل ذات الصلة لمجال البيانات في نظام أساسي واحد، مع Apache Spark/Photon كمحرك:

  • الاستيعاب والتحويل

    لاستيعاب البيانات، يعالج "التحميل التلقائي" الملفات المنتقل إليها في التخزين السحابي بشكل تزايدي وتلق تلقائي في الوظائف المجدولة أو المستمرة - دون الحاجة إلى إدارة معلومات الحالة. بمجرد استيعابها، يجب تحويل البيانات الأولية حتى تصبح جاهزة ل BI وML/الذكاء الاصطناعي. يوفر Databricks قدرات ETL قوية لمهندسي البيانات وعلماء البيانات والمحللين.

    تسمح Delta Live Tables (DLT) بكتابة مهام ETL بطريقة تعريفية، مما يبسط عملية التنفيذ بأكملها. يمكن تحسين جودة البيانات من خلال تحديد توقعات البيانات.

  • التحليلات المتقدمة، التعلم الآلي الذكاء الاصطناعي

    تأتي المنصة مع Databricks Mosaic الذكاء الاصطناعي، وهي مجموعة من التعلم الآلي المتكامل بالكامل وأدوات الذكاء الاصطناعي للتعلم الآلي والعميق التقليدي بالإضافة إلى الذكاء الاصطناعي التوليدية ونماذج اللغات الكبيرة (LLMs). وهو يغطي سير العمل بأكمله من إعداد البيانات إلى بناء نماذج التعلم الآلي والتعلم العميق، إلى الفسيفساء الذكاء الاصطناعي خدمة النموذج.

    يتيح Spark Structured Streaming وDLT التحليلات في الوقت الفعلي.

  • مستودع البيانات

    يوفر Databricks Data Intelligence Platform أيضا حلا كاملا لمستودع البيانات مع Databricks SQL، يحكمه مركزيا كتالوج Unity مع التحكم الدقيق في الوصول.

تعيين ميزات Databricks Data Intelligence Platform إلى الطبقات الأخرى من إطار العمل، من الأسفل إلى الأعلى:

  • مساحة تخزين السحابة‬

    يتم تخزين جميع البيانات الخاصة ب lakehouse في تخزين كائن موفر السحابة. يدعم Databricks ثلاثة موفرين للسحابة: AWS وAzure وGCP. يتم استيعاب الملفات بتنسيقات مختلفة منظمة وشبه منظمة (مثل Parquet وCSV وJSON وAvro) بالإضافة إلى التنسيقات غير المنظمة (مثل الصور) وتحويلها باستخدام عمليات الدفعة أو الدفق.

    Delta Lake هو تنسيق البيانات الموصى به ل lakehouse (معاملات الملفات والموثوقية والاتساق والتحديثات وما إلى ذلك) وهو مصدر مفتوح تماما لتجنب التأمين. ويسمح لك Delta Universal Format (UniForm) بقراءة جداول Delta مع عملاء قارئ Iceberg.

    لا يتم استخدام أي تنسيقات بيانات خاصة في Databricks Data Intelligence Platform.

  • إدارة البيانات

    أعلى طبقة التخزين، يوفر كتالوج Unity مجموعة واسعة من قدرات إدارة البيانات، بما في ذلك إدارة بيانات التعريف في metastore، والتحكم في الوصول، والتدقيق، واكتشاف البيانات، نسب البيانات.

    توفر مراقبة Lakehouse مقاييس جودة غير مجزية للبيانات والأصول الذكاء الاصطناعي، ولوحات معلومات تم إنشاؤها تلقائيا لتصور هذه المقاييس.

    يمكن دمج مصادر SQL الخارجية في lakehouse وUnity Catalog من خلال اتحاد lakehouse.

  • محرك الذكاء الاصطناعي

    تم بناء Data Intelligence Platform على بنية مستودع البيانات وتعزيزه بواسطة محرك ذكاء البيانات DatabricksIQ. يجمع DatabricksIQ بين الذكاء الاصطناعي التوليدية وفوائد التوحيد لبنية lakehouse لفهم الدلالات الفريدة لبياناتك. البحث الذكي ومساعد Databricks هما مثالان على الذكاء الاصطناعي الخدمات التي تعمل بالطاقة والتي تبسط العمل مع النظام الأساسي لكل مستخدم.

  • تزامن

    تمكنك مهام سير عمل Databricks من تشغيل أحمال عمل متنوعة للبيانات الكاملة ودورة حياة الذكاء الاصطناعي على أي سحابة. فهي تسمح لك بتنسيق المهام بالإضافة إلى جداول Delta Live ل SQL وSpark ودفاتر الملاحظات وDBT ونماذج التعلم الآلي والمزيد.

  • أدوات ETL وDS

    في طبقة الاستهلاك، عادة ما يعمل مهندسو البيانات ومهندسو التعلم الآلي مع النظام الأساسي باستخدام IDEs. غالبا ما يفضل علماء البيانات دفاتر الملاحظات ويستخدمون وقت تشغيل التعلم الآلي الذكاء الاصطناعي، ونظام سير عمل التعلم الآلي MLflow لتتبع التجارب وإدارة دورة حياة النموذج.

  • أدوات المعلومات المهنية

    عادة ما يستخدم محللو الأعمال أداة المعلومات المهنية المفضلة لديهم للوصول إلى مستودع بيانات Databricks. يمكن الاستعلام عن Databricks SQL بواسطة أدوات تحليل و BI مختلفة، راجع المعلومات المهنية والتصور

    بالإضافة إلى ذلك، يوفر النظام الأساسي أدوات الاستعلام والتحليل خارج الصندوق:

    • لوحات المعلومات لإنشاء مرئيات البيانات ومشاركة الرؤى بطريقة السحب والإفلات.
    • محرر SQL لمحللي SQL لتحليل البيانات.
  • المساهمة

    Delta Sharing هو بروتوكول مفتوح طورته Databricks لمشاركة البيانات الآمنة مع المؤسسات الأخرى بغض النظر عن منصات الحوسبة التي تستخدمها.

    Databricks Marketplace، هو منتدى مفتوح لتبادل منتجات البيانات. إنه يستفيد من Delta Sharing لمنح موفري البيانات الأدوات لمشاركة منتجات البيانات بأمان ومستهلكي البيانات القدرة على استكشاف وتوسيع وصولهم إلى البيانات وخدمات البيانات التي يحتاجونها.