تنسيق تكامل البيانات مع مسارات Azure Synapse

7 دقائق

مسارات Azure Synapse عبارة عن خدمة تكامل البيانات والبيانات المستندة إلى السحابة، والتي تسمح لك بإنشاء سير عمل قائم على البيانات لتنظيم حركة البيانات وتحويل البيانات على نطاق واسع. باستخدام مسارات Azure Synapse، يمكنك إنشاء وجدولة مهام سير العمل المستندة إلى البيانات (تسمى مسارات) التي يمكنها استيعاب البيانات من مخازن البيانات المتباينة. يمكنك إنشاء عمليات ETL أو ELT معقدة تحول البيانات بصريًا مع تدفق البيانات أو باستخدام خدمات الحساب مثل Azure HDInsight وAzure Databricks، وAzure Synapse Analytics.

تأتي العديد من وظائف مسارات Azure Synapse من ميزات Azure Data Factory ويشار إليها عادةً باسم مسارات. تمكنك مسارات Azure Synapse من دمج مسارات البيانات بين أوعية SQL وأوعية Spark وSQL Serverless، ما يوفر محطة واحدة لجميع احتياجاتك التحليلية.

تتكون مسارات Azure Synapse من أربعة مكونات أساسية كما هو الحال في Azure Data Factory. تعمل هذه المكونات معًا لتوفير النظام الأساسي الذي يمكنك من خلاله إنشاء سير عمل يستند إلى البيانات مع خطوات لنقل البيانات وتحويلها.

يدعم Data Factory مجموعة واسعة من مصادر البيانات التي يمكنك الاتصال بها من خلال إنشاء عنصر يعرف باسم «Linked Service»، والتي تمكنك من استيعاب البيانات من مصدر بيانات في حالة استعداد لإعداد البيانات لتحويلها و/أو تحليلها. بالإضافة إلى ذلك، يمكن للخدمة المرتبطة تشغيل خدمات الحساب عند الطلب. على سبيل المثال، قد تكون لديك متطلبات لبدء نظام مجموعة HDInsight عند الطلب لغرض معالجة البيانات فقط من خلال استعلام Apache Hive. لذلك تمكنك الخدمة المرتبطة من تحديد مصادر البيانات أو حساب المورد المطلوب لاستيعاب البيانات وإعدادها.

من خلال تعريف Linked Service، يتم تعريف Azure Data Factory بمجموعات البيانات التي يجب استخدامها من خلال إنشاء العنصر «Datasets». تمثل Datasets بُنى البيانات داخل مخزن البيانات الذي يتم الرجوع إليه بواسطة عنصر Linked Service. يمكن أيضًا استخدام Datasets بواسطة عنصرADF يعرف باسم Activity.

تحتوي Activities على منطق التحويل أو أوامر التحليل الخاصة بعمل Azure Data Factory. تتضمن الأنشطة «نشاط النسخ» الذي يمكن استخدامه لاستيعاب البيانات من مصادر بيانات متنوعة. يمكن أن تتضمن أيضًا تدفق بيانات التعيين لتنفيذ تحويلات البيانات بدون تعليمة برمجية. ويمكن أن تشمل أيضًا تنفيذ إجراء مُخزن، أو استعلام Apache Hive، أو برنامج نصي Pig لتحويل البيانات. يمكنك دفع البيانات إلى نموذج التعلّم الآلي لإجراء التحليل. ليس من غير المألوف أن يتم تنفيذ أنشطة متعددة قد تتضمن تحويل البيانات باستخدام إجراء مخزن في SQL، وبعده يتم تنفيذ التحليلات باستخدام Databricks. في هذه الحالة، يمكن تجميع أنشطة متعددة منطقيًا مع عنصر يشار إليه باسم «Pipeline»، ويمكن جدولة تلك الأنشطة للتنفيذ، أو يمكن تعريف مشغل يحدد متى يحتاج تنفيذ مسار معين إلى إيقافه. هناك أنواع مختلفة من المشغلات لأنواع مختلفة من الأحداث.

Azure Synapse Pipeline components

Control flow: عبارة عن تنظيم أنشطة المسارات التي تتضمن أنشطة التسلسل المتسلسلة، وإنشاء الإصدارات الفرعية، وتعريف المعلمات على مستوى المسار، وتمرير الوسائط خلال استدعاء المسار عند الطلب أو من مشغل. كما يتضمن حاويات تمرير وتكرار حلقي مخصصة الحالة، ومكررات For-each.

Parameters عبارة عن زوج قيم المفاتيح لتكوين للقراءة فقط.  يتم تعريف المعلمات في المسار. يتم تمرير الوسائط للمعلمات المعرفة خلال التنفيذ من سياق التشغيل الذي تم إنشاؤه بواسطة مشغل أو مسار تم تنفيذه يدويًا. الأنشطة داخل المسار تستهلك قيم المعلمات.

يحتوي Azure Synapse Pipelines على وقت تشغيل تكامل يمكنه من الربط بين النشاط وعناصر الخدمات المرتبطة. يُشار إليه عن طريق الخدمة المرتبطة، ويوفر بيئة الحساب التي يتم فيها تشغيل النشاط أو يتم إرسالها منها. وبهذه الطريقة، يمكن تنفيذ النشاط في المنطقة الأقرب. هناك ثلاثة أنواع من أوقات تشغيل التكامل (IR) وهي البنية الأساسية للحساب المستخدمة من قبل Azure Data Factory والبنية الأساسية لبرنامج ربط العمليات التجارية Synapse لتوفير قدرات تكامل البيانات، بما في ذلك Azure والاستضافة الذاتية. يدعم Azure Data Factory نفس أوقات تشغيل التكامل، بالإضافة إلى ذلك، فإنه يدعم أيضًا وقت تشغيل تكامل Azure-SSIS.

بمجرد اكتمال كل العمل، يمكنك استخدام Data Factory لنشر مجموعة البيانات النهائية إلى خدمة مرتبطة أخرى يمكن استهلاكها بعد ذلك بواسطة تقنيات مثل Power BI أو التعلم الآلي.

متابعة

الملاحظات