المبادئ التوجيهية لمخزن البحيرة

المبادئ التوجيهية هي قواعد المستوى الصفري التي تحدد البنية الخاصة بك وتؤثر عليها. لبناء مستودع بيانات يساعد عملك على النجاح الآن وفي المستقبل، يعد توافق الآراء بين المساهمين في مؤسستك أمرا بالغ الأهمية.

تنسيق البيانات وتقديم البيانات كمنتجات موثوق بها

يعد تنسيق البيانات ضروريا لإنشاء مستودع بيانات عالي القيمة ل BI وML/الذكاء الاصطناعي. تعامل مع البيانات كمنتج بتعريف ومخطط ودورة حياة واضحة. تأكد من التناسق الدلالي وأن جودة البيانات تتحسن من طبقة إلى طبقة حتى يتمكن مستخدمو الأعمال من الوثوق بالبيانات بشكل كامل.

Curate data and offer trusted data-as-products

يعد تنظيم البيانات من خلال إنشاء بنية ذات طبقات (أو متعددة الوثب) أفضل ممارسة هامة لمستودع التخزين، لأنه يسمح لفرق البيانات بهيكلة البيانات وفقا لمستويات الجودة وتحديد الأدوار والمسؤوليات لكل طبقة. نهج الطبقات الشائعة هو:

  • طبقة استيعاب: يتم استيعاب بيانات المصدر في مستودع في الطبقة الأولى ويجب أن تستمر هناك. عند إنشاء جميع بيانات انتقال البيانات من الخادم من طبقة استيعاب، تكون إعادة إنشاء الطبقات اللاحقة من هذه الطبقة ممكنة، إذا لزم الأمر.
  • الطبقة المنسقة: الغرض من الطبقة الثانية هو الاحتفاظ بالبيانات النظيفة والمكررة والمصفاة والمجمعة. الهدف من هذه الطبقة هو توفير أساس سليم وموثوق به للتحليلات والتقارير عبر جميع الأدوار والوظائف.
  • الطبقة النهائية: يتم إنشاء الطبقة الثالثة حول احتياجات الأعمال أو المشروع؛ فهي توفر طريقة عرض مختلفة كمنتجات بيانات لوحدات الأعمال أو المشاريع الأخرى، أو إعداد البيانات حول احتياجات الأمان (على سبيل المثال، البيانات مجهولة المصدر)، أو تحسين الأداء (مع طرق عرض مجمعة مسبقا). ينظر إلى منتجات البيانات في هذه الطبقة على أنها حقيقة للأعمال.

تحتاج المسارات عبر جميع الطبقات إلى التأكد من استيفاء قيود جودة البيانات، ما يعني أن البيانات دقيقة وكاملة ويمكن الوصول إليها ومتسقة في جميع الأوقات، حتى أثناء عمليات القراءة والكتابة المتزامنة. يحدث التحقق من صحة البيانات الجديدة في وقت إدخال البيانات إلى الطبقة المنسقة، وتعمل خطوات ETL التالية لتحسين جودة هذه البيانات. يجب أن تتحسن جودة البيانات مع تقدم البيانات عبر الطبقات، وعلى هذا النحو، تزداد الثقة في البيانات لاحقا من وجهة نظر العمل.

التخلص من صوامع البيانات وتقليل حركة البيانات

لا تنشئ نسخا من مجموعة بيانات مع عمليات تجارية تعتمد على هذه النسخ المختلفة. قد تصبح النسخ مستودعات بيانات تخرج عن المزامنة، ما يؤدي إلى انخفاض جودة مستودع البيانات الخاص بك، وأخيرا إلى رؤى قديمة أو غير صحيحة. أيضا، لمشاركة البيانات مع الشركاء الخارجيين، استخدم آلية مشاركة المؤسسة التي تسمح بالوصول المباشر إلى البيانات بطريقة آمنة.

Eliminate data silos and minimize data movement

لتوضيح التمييز بين نسخة البيانات مقابل صومعة البيانات: نسخة مستقلة أو تخلص من البيانات ليست ضارة من تلقاء نفسها. من الضروري أحيانا تعزيز السرعة والتجريب والابتكار. ومع ذلك، إذا أصبحت هذه النسخ تعمل مع منتجات بيانات الأعمال المتلقين للمعلومات التي تعتمد عليها، فإنها تصبح مستودعات للبيانات.

لمنع عزل البيانات، تحاول فرق البيانات عادة إنشاء آلية أو مسار بيانات للحفاظ على جميع النسخ متزامنة مع النسخة الأصلية. نظرا لأنه من غير المحتمل أن يحدث هذا باستمرار، فإن جودة البيانات تتدهور في النهاية. يمكن أن يؤدي هذا أيضا إلى ارتفاع التكاليف وفقدان كبير في الثقة من قبل المستخدمين. من ناحية أخرى، تتطلب العديد من حالات استخدام الأعمال مشاركة البيانات مع الشركاء أو الموردين.

جانب مهم هو مشاركة أحدث إصدار من مجموعة البيانات بشكل آمن وموثوق. غالبا ما تكون نسخ مجموعة البيانات غير كافية، لأنها يمكن أن تخرج من المزامنة بسرعة. بدلا من ذلك، يجب مشاركة البيانات عبر أدوات مشاركة بيانات المؤسسة.

إضفاء الطابع الديمقراطي على خلق القيمة من خلال الخدمة الذاتية

لا يمكن أن توفر أفضل مستودع بيانات قيمة كافية، إذا لم يتمكن المستخدمون من الوصول إلى النظام الأساسي أو البيانات لمهام BI وML/الذكاء الاصطناعي بسهولة. خفض الحواجز التي تحول دون الوصول إلى البيانات والأنظمة الأساسية لجميع وحدات الأعمال. ضع في اعتبارك عمليات إدارة البيانات الهزيلة وتوفير الوصول إلى الخدمة الذاتية للنظام الأساسي والبيانات الأساسية.

Democratize value creation through self-service

ستزدهر الشركات التي انتقلت بنجاح إلى ثقافة تستند إلى البيانات. وهذا يعني أن كل وحدة أعمال تستمد قراراتها من النماذج التحليلية أو من تحليل بياناتها الخاصة أو المقدمة مركزيا. بالنسبة للمستهلكين، يجب أن تكون البيانات قابلة للاكتشاف بسهولة ويمكن الوصول إليها بأمان.

المفهوم الجيد لمنتجي البيانات هو "البيانات كمنتج": يتم تقديم البيانات وصيانتها من قبل وحدة عمل واحدة أو شريك عمل مثل المنتج وتستهلكها أطراف أخرى مع التحكم المناسب في الأذونات. بدلا من الاعتماد على فريق مركزي وعمليات الطلب البطيئة المحتملة، يجب إنشاء منتجات البيانات هذه وعرضها اكتشافها واستهلاكها في تجربة الخدمة الذاتية.

ومع ذلك، فإن البيانات التي تهم ليست فقط. يتطلب إضفاء الطابع الديمقراطي على البيانات الأدوات المناسبة لتمكين الجميع من إنتاج البيانات أو استهلاكها وفهمها. لذلك، تحتاج إلى أن يكون مستودع البيانات عبارة عن بيانات حديثة ومنصة الذكاء الاصطناعي توفر البنية الأساسية والأدوات لبناء منتجات البيانات دون تكرار جهود إعداد مكدس أدوات آخر.

اعتماد استراتيجية لإدارة البيانات على مستوى المؤسسة

البيانات هي أصل مهم لأي مؤسسة، ولكن لا يمكنك منح الجميع حق الوصول إلى جميع البيانات. يجب إدارة الوصول إلى البيانات بنشاط. التحكم في الوصول والتدقيق وتتبع دورة حياة البيانات هي المفتاح للاستخدام الصحيح والآمن للبيانات.

Adopt an organizationwide data governance strategy

حوكمة البيانات هي موضوع واسع. يغطي lakehouse الأبعاد التالية:

  • جودة البيانات

    أهم شرط أساسي للتقارير الصحيحة والمفيدة ونتائج التحليل والنماذج هو البيانات عالية الجودة. يجب أن يكون ضمان الجودة (QA) موجودا حول جميع خطوات البنية الأساسية لبرنامج ربط العمليات التجارية. ومن الأمثلة على كيفية تنفيذ ذلك وجود عقود بيانات، وتلبية اتفاقيات مستوى الخدمة، والحفاظ على استقرار المخططات، وتطورها بطريقة خاضعة للرقابة.

  • كتالوج البيانات

    جانب آخر مهم هو اكتشاف البيانات: يجب أن يكون مستخدمو جميع مجالات الأعمال، خاصة في نموذج الخدمة الذاتية، قادرين على اكتشاف البيانات ذات الصلة بسهولة. لذلك، يحتاج lakehouse إلى كتالوج بيانات يغطي جميع البيانات ذات الصلة بالأعمال. الأهداف الأساسية لكتالوج البيانات هي كما يلي:

    • تأكد من أن نفس مفهوم العمل يسمى ويعلن عنه بشكل موحد عبر الأعمال. قد تفكر في الأمر كنموذج دلالي في الطبقة المنسقة والنهائي.
    • تعقب دورة حياة البيانات بدقة حتى يتمكن المستخدمون من شرح كيفية وصول هذه البيانات إلى شكلها وشكلها الحاليين.
    • الحفاظ على بيانات تعريف عالية الجودة، وهو أمر مهم مثل البيانات نفسها للاستخدام السليم للبيانات.
  • التحكم في الوصول

    نظرا لأن إنشاء القيمة من البيانات في بحيرة يحدث عبر جميع مناطق الأعمال، يجب بناء مستودع مع الأمن كمواطن من الدرجة الأولى. قد يكون لدى الشركات سياسة وصول إلى البيانات أكثر انفتاحا أو تتبع بدقة مبدأ أقل الامتيازات. بغض النظر عن ذلك، يجب أن تكون عناصر التحكم في الوصول إلى البيانات في كل طبقة. من المهم تنفيذ أنظمة الأذونات الدقيقة من البداية (التحكم في الوصول على مستوى العمود والصف، أو التحكم في الوصول المستند إلى الدور أو المستند إلى السمة). يمكن أن تبدأ الشركات بقواعد أقل صرامة. ولكن مع نمو النظام الأساسي للبحيرة، يجب أن تكون جميع الآليات والعمليات لنظام أمني أكثر تعقيدا موجودة بالفعل. بالإضافة إلى ذلك، يجب أن تخضع جميع الوصول إلى البيانات في lakehouse لسجلات التدقيق من get-go.

تشجيع الواجهات المفتوحة والتنسيقات المفتوحة

تعد الواجهات المفتوحة وتنسيقات البيانات أمرا بالغ الأهمية للتشغيل التفاعلي بين مستودع البحيرات والأدوات الأخرى. فهو يبسط التكامل مع الأنظمة الحالية ويفتح أيضا نظاما بيئيا من الشركاء الذين دمجوا أدواتهم مع المنصة.

Encourage open interfaces and open formats

تعد الواجهات المفتوحة أمرا بالغ الأهمية لتمكين إمكانية التشغيل التفاعلي ومنع التبعية على أي مورد واحد. تقليديا، قام البائعون ببناء تقنيات خاصة وواجهات مغلقة تحد من المؤسسات بالطريقة التي يمكنها تخزين البيانات ومعالجتها ومشاركتها.

يساعدك البناء على الواجهات المفتوحة على البناء للمستقبل:

  • فهو يزيد من طول عمر البيانات وقابلية نقلها بحيث يمكنك استخدامها مع المزيد من التطبيقات والمزيد من حالات الاستخدام.
  • يفتح نظاما بيئيا من الشركاء الذين يمكنهم الاستفادة بسرعة من الواجهات المفتوحة لدمج أدواتهم في منصة lakehouse.

وأخيرا، من خلال توحيد التنسيقات المفتوحة للبيانات، ستكون التكاليف الإجمالية أقل بكثير؛ يمكن للمرء الوصول إلى البيانات مباشرة على التخزين السحابي دون الحاجة إلى توجيهها من خلال نظام أساسي خاص يمكن أن يؤدي إلى ارتفاع تكاليف الخروج والحساب.

البناء لتوسيع نطاق الأداء والتكلفة وتحسينهما

لا بد أن تستمر البيانات في النمو وتصبح أكثر تعقيدا. لتجهيز مؤسستك لتلبية الاحتياجات المستقبلية، يجب أن يكون مستودعك قادرا على التوسع. على سبيل المثال، يجب أن تكون قادرا على إضافة موارد جديدة بسهولة عند الطلب. وينبغي أن تقتصر التكاليف على الاستهلاك الفعلي.

Build to scale and optimize for performance and cost

غالبا ما يكون لعمليات ETL القياسية وتقارير الأعمال ولوحات المعلومات حاجة موارد يمكن التنبؤ بها من منظور الذاكرة والحساب. ومع ذلك، فإن المشاريع الجديدة أو المهام الموسمية أو النهج الحديثة مثل التدريب النموذجي (الهزال والتنبؤ والصيانة) تولد ذروات الحاجة إلى الموارد. لتمكين الأعمال من تنفيذ جميع أحمال العمل هذه، يلزم وجود نظام أساسي قابل للتطوير للذاكرة والحساب. ويجب إضافة موارد جديدة بسهولة عند الطلب، ولا ينبغي إلا للاستهلاك الفعلي أن يولد التكاليف. بمجرد انتهاء الذروة، يمكن تحرير الموارد مرة أخرى وخفض التكاليف وفقا لذلك. غالبا ما يشار إلى ذلك باسم التحجيم الأفقي (عقد أقل أو أكثر) والتحجيم العمودي (عقد أكبر أو أصغر).

يتيح التحجيم أيضا للشركات تحسين أداء الاستعلامات عن طريق تحديد العقد ذات الموارد أو المجموعات التي تحتوي على المزيد من العقد. ولكن بدلا من توفير أجهزة ومجموعات كبيرة بشكل دائم، يمكن توفيرها عند الطلب فقط للوقت اللازم لتحسين الأداء العام إلى نسبة التكلفة. جانب آخر من التحسين هو التخزين مقابل موارد الحوسبة. نظرا لعدم وجود علاقة واضحة بين حجم البيانات وأحمال العمل باستخدام هذه البيانات (على سبيل المثال، استخدام أجزاء من البيانات فقط أو إجراء حسابات مكثفة على البيانات الصغيرة)، فمن الممارسات الجيدة الاستقرار على نظام أساسي للبنية الأساسية يفصل بين موارد التخزين والحساب.