وصف استيعاب البيانات ومعالجتها

مكتمل

ويُعنى تحليل البيانات بأخذ البيانات وإيجاد معلومات واستنباطات مفيدة منها. ويمكن أن يكون هذا النطاق واسعًا مثل اختيار مجموعة مثالية من المنتجات لمتاجر التجزئة، أو اختيار أفضل المرشحين للقاحات لشركة التكنولوجيا الحيوية.

على سبيل المثال، قد يكون تحليل البيانات في شركة ما معنيًا بأخذ البيانات التي تنتجها مؤسستك واستخدامها لإنشاء صورة عن كيفية أداء مؤسستك وما يمكنك القيام به للحفاظ على أداء الأعمال. يمكن أن تساعدك تحليلات البيانات في تحديد نقاط القوة والضعف في مؤسستك، وتمكنك من اتخاذ القرارات المناسبة في مجال الأعمال.

يمكن أن تأتي البيانات التي تستخدمها الشركة من مصادر عديدة. يمكن أن يكون هناك كتلة من البيانات التاريخية للتمشيط من خلالها، وبيانات جديدة تستمر في الوصول طوال الوقت. قد تكون هذه البيانات نتيجة عمليات شراء العملاء، أو المعاملات المصرفية، أو تحركات أسعار الأسهم، أو بيانات الطقس الفورية، أو أجهزة المراقبة، أو حتى الكاميرات. في حل تحليل البيانات، يمكنك دمج هذه البيانات وإنشاء مستودع بيانات يمكنك استخدامه لطرح (والإجابة) على أسئلة حول عملياتك التجارية. يتطلب إنشاء مستودع بيانات أن تتمكن من التقاط البيانات التي تحتاجها وتشبيكها في تنسيق مناسب. يمكنك بعد ذلك استخدام أدوات التحليل والتصورات لفحص المعلومات واتجاهات الهوية وأسبابها.

إشعار

التشبيك هي العملية التي تقوم بتحويل البيانات الخام وخريطة البيانات إلى تنسيق أكثر فائدة للتحليل. يمكن أن تتضمن كتابة التعليمات البرمجية لالتقاط وتصفية وتنظيف، وجمع، وتجميع البيانات من مصادر عديدة.

في هذه الوحدة، ستتعرف على مرحلتين مهمتين في تحليل البيانات: استيعاب البيانات، ومعالجة البيانات. يوضح الرسم التخطيطي أدناه كيف تتلاءم هذه المراحل مع بعضها البعض.

رسم تخطيطي لبنية تحليلات البيانات النموذجية التي تصور استيعاب البيانات ومعالجتها واستكشافها.

ما هو استيعاب البيانات؟

استيعاب البيانات هو عملية الحصول على البيانات واستيرادها للاستخدام الفوري أو التخزين في قاعدة بيانات. يمكن أن تصل البيانات كتدفق مستمر، أو قد تأتي على دفعات، اعتمادًا على المصدر. والغرض من عملية الاستيعاب هو التقاط هذه البيانات وتخزينها. يمكن أن يتم حفظ هذه البيانات الخام في مستودع مثل نظام إدارة قاعدة البيانات، أو مجموعة من الملفات، أو نوع آخر من التخزين السريع الذي يمكن الوصول إليه بسهولة.

قد تجري عملية الاستيعاب التصفية أيضًا. على سبيل المثال، قد يرفض التحويل البيانات المشبوهة أو الفاسدة أو المكررة. قد تكون البيانات المشبوهة بيانات قادمة من مصدر غير متوقع. قد تكون البيانات التالفة أو المكررة بسبب خطأ في الجهاز أو فشل في الإرسال أو تلاعب.

قد يكون من الممكن أيضاً تنفيذ بعض التحويلات في هذه المرحلة، تحويل البيانات إلى نموذج قياسي للمعالجة اللاحقة. على سبيل المثال، قد تحتاج إلى إعادة تنسيق كافة بيانات التاريخ والوقت لاستخدام نفس تمثيلات التاريخ والوقت، وتحويل كافة بيانات القياس لاستخدام نفس الوحدات. ومع ذلك، يجب أن تكون هذه التحويلات سريعة الأداء. لا تحاول تشغيل أي حسابات أو تجمعات معقدة على البيانات في هذه المرحلة.

ما المقصود بمعالجة البيانات؟

تحدث مرحلة معالجة البيانات بعد استيعاب البيانات وجمعها. تأخذ معالجة البيانات البيانات في شكلها الخام، وتنظفها، وتحولها إلى تنسيق أكثر جدوى (الجداول والرسوم البيانية والوثائق، وما إلى ذلك). والنتيجة هي قاعدة بيانات للبيانات التي يمكنك استخدامها لتنفيذ الاستعلامات وإنشاء المرئيات، مما يعطيها النموذج والسياق اللازمين لتفسيرهما من قبل أجهزة الكمبيوتر واستخدامهما من قبل الموظفين في المؤسسة.

إشعار

تنظيف البيانات هو مصطلح معمم يشمل مجموعة من الإجراءات، مثل إزالة العيوب، وتطبيق المرشحات والتحولات التي قد تستغرق وقتًا طويلاً جدًا للتشغيل أثناء مرحلة الاستيعاب.

والهدف من معالجة البيانات هو تحويل البيانات الخام إلى نموذج عمل واحد أو أكثر. يصف نموذج الأعمال البيانات من حيث كيانات الأعمال ذات المغزى، وقد يجمع العناصر معًا ويلخص المعلومات. ويمكن أيضاً أن تُنتج مرحلة معالجة البيانات نماذج تنبؤية أو نماذج تحليلية أخرى من البيانات. يمكن أن تكون معالجة البيانات معقدة، وقد تتضمن برامج نصية تلقائية، وأدوات مثل Azure Databricks، Azure، وخدمات Azure المعرفية لفحص البيانات وإعادة صياغتها، وإنشاء نماذج. ويمكن لمحلل البيانات استخدام التعلم الآلي للمساعدة في تحديد الاتجاهات المستقبلية استنادا إلى هذه النماذج.

رسم تخطيطي لمعالجة البيانات التي تم استيعابها لإنشاء نماذج بيانات.

ما هو ELT و ETL؟

ويمكن لآلية معالجة البيانات أن تتخذ نهجين لاسترجاع البيانات التي تم استيعابها، ومعالجة هذه البيانات لتحويلها وتوليد نماذج، ومن ثم حفظ البيانات والنماذج المحولة. وتعرف هذه النهج باسم ETL و ELT.

يرمز ETL إلى الاستخراج، التحويل، والتحميل. يتم استرداد البيانات الأولية وتحويلها قبل حفظها. يمكن تنفيذ خطوات الاستخراج والتحويل والتحمّل كتدفقات مستمرة من العمليات. إنها مناسبة للأنظمة التي تتطلب نماذج بسيطة فقط، مع القليل من التبعية بين العناصر. على سبيل المثال، غالباً ما يتم استخدام هذا النوع من العمليات لمهام تنظيف البيانات الأساسية، والبيانات التي يتم إزالة الازدواجية فيها، وإعادة تنسيق محتويات الحقول الفردية.

رسم تخطيطي للصورة يوضح عملية ETL.

نهج بديل هو ELT. ELT هو اختصار للاستخراج، التحميل، والتحويل. تختلف العملية عن ETL من حيث تخزين البيانات قبل تحويلها. يمكن لمحرك معالجة البيانات اتباع نهج تكراري، واسترجاع البيانات ومعالجتها من التخزين، قبل إعادة كتابة البيانات والنماذج المحولة إلى التخزين. ELT هو أكثر ملاءمة لبناء نماذج معقدة تعتمد على عدة بنود في قاعدة البيانات، وغالبا ما تستخدم معالجة دفعات دورية.

رسم تخطيطي للصورة يوضح عملية ELT.

ELT هو نهج قابل للتحجيم مناسب للسحابة لأنه يمكن أن يستفيد من طاقة المعالجة الواسعة المتاحة. يضع النهج الأكثر توجهاً نحو التدفق في ETL مزيدًا من التركيز على الإنتاجية. ومع ذلك، يمكن لـ ETL تصفية البيانات قبل تخزينها. وبهذه الطريقة، يمكن أن تساعد ETL في خصوصية البيانات والامتثال، وإزالة البيانات الحساسة قبل وصولها إلى نماذج البيانات التحليلية الخاصة بك.

يوفر Azure العديد من الخيارات التي يمكنك استخدامها لتنفيذ نهجي ELT و ETL. على سبيل المثال، إذا كنت تخزن البيانات في قاعدة بيانات SQL Azure يمكنك استخدام خدمات تكامل خادم SQL. يمكن "لخدمات التكامل" استخراج البيانات وتحويلها من مجموعة متنوعة من المصادر مثل ملفات بيانات XML والملفات المسطحة ومصادر البيانات العلائقية، ثم تحميل البيانات إلى وجهة واحدة أو أكثر.

هذا جدول بسيط يظهر مزايا ETL و ELT في معظم الحالات.

رسم تخطيطي ل ETL مقابل ELT.

هناك نهج آخر أكثر عمومية وهو استخدام Azure Data Factory. Azure Data Factory هي خدمة تكامل بيانات مستندة إلى السحابة تسمح لك بإنشاء مهام سير عمل تستند إلى البيانات لتنظيم حركة البيانات وتحويل البيانات على نطاق واسع. باستخدام Azure Data Factory، يمكنك إنشاء تدفقات سير عمل تعتمد على البيانات وجدولتها (تسمى المسارات) يمكنها استيعاب البيانات من مخازن البيانات المختلفة. يمكنك بناء عمليات ETL المعقدة التي تحول البيانات بصريا مع تدفق البيانات، أو باستخدام خدمات الحوسبة مثل Azure HDInsight Hadoop، Azure Databricks، وقاعدة بيانات AZURE SQL.