تعيين وضع تصحيح أخطاء تدفق البيانات

ينطبق على: Azure Data Factory Azure Synapse Analytics

نظرة عامة

يتيح لك وضع تصحيح أخطاء تدفق البيانات في Azure Data Factory وSynapse Analytics مشاهدة تحويل شكل البيانات بشكل تفاعلي أثناء إنشاء تدفقات البيانات وتصحيحها. يمكن استخدام جلسة عمل تتبع الأخطاء في جلسات عمل تصميم Data Flow وكذلك أثناء تنفيذ تتبع أخطاء مسارات المعالجة لتدفقات البيانات. لتشغيل وضع التصحيح، استخدم الزر تصحيح تدفق البيانات في الشريط العلوي من لوحة تدفق البيانات أو لوحة المسارات عندما يكون لديك أنشطة تدفق البيانات.

Screenshot that shows where is the Debug slider 1

Screenshot that shows where is the Debug slider 2

بمجرد تشغيل شريط التمرير، سيُطلب منك تحديد تكوين وقت تشغيل التكامل الذي ترغب في استخدامه. إذا تم اختيار AutoResolveIntegrationRuntime، فسيتم إنشاء مجموعة مكونة من ثماني ذاكرات أساسية من الحساب العام مع وقت افتراضي للبث يبلغ 60 دقيقة. إذا كنت ترغب في السماح بمزيد من وقت الخمول للفريق قبل انتهاء مهلة الجلسة، فيمكنك اختيار إعداد وقت بث أعلى. لمزيد من المعلومات حول أوقات تشغيل تكامل تدفق البيانات، راجع تكامل أداء وقت التشغيل .

Debug IR selection

عندما يكون وضع التصحيح قيد التشغيل، ستقوم ببناء تدفق البيانات بشكل تفاعلي باستخدام مجموعة Spark نشطة. ستغلق الجلسة بمجرد إيقاف تشغيل التصحيح. يجب أن تكون على دراية بالرسوم التي يتكبدها مصنع البيانات بالساعة أثناء وقت تشغيل جلسة تصحيح الأخطاء.

في معظم الحالات، من الممارسات الجيدة إنشاء تدفقات البيانات في وضع التصحيح بحيث يمكنك التحقق من صحة منطق عملك وعرض تحويلات البيانات قبل نشر عملك. استخدم الزر "تصحيح الأخطاء" في لوحة المسارات لاختبار تدفق البيانات في المسار.

ملاحظة

كل جلسة تصحيح أخطاء يبدأها المستخدم من واجهة مستخدم المتصفح الخاصة به هي جلسة جديدة مع مجموعة Spark الخاصة بها. يمكنك استخدام طريقة عرض المراقبة لجلسات تصحيح الأخطاء أعلاه لعرض جلسات تصحيح الأخطاء وإدارتها. تتم محاسبتك على كل ساعة يتم تنفيذ كل جلسة تصحيح فيها بما في ذلك وقت البث.

حالة المجموعة

يتحول مؤشر حالة المجموعة الموجود أعلى سطح التصميم إلى اللون الأخضر عندما تكون المجموعة جاهزة للتصحيح. إذا كانت مجموعتك مهيَّأة بالفعل، فسيظهر المؤشر الأخضر على الفور تقريبًا. إذا لم تكن مجموعتك تعمل بالفعل عند دخولك إلى وضع التصحيح، فسيقوم Spark الكتلة بإجراء تمهيد مقيد. سوف يدور المؤشر حتى تصبح البيئة جاهزة للتصحيح التفاعلي.

عند الانتهاء من تصحيح الأخطاء، قم بإيقاف تشغيل مفتاح تصحيح الأخطاء بحيث يمكن إنهاء مجموعة Spark ولن تتم محاسبتك على نشاط التصحيح بعد الآن.

إعدادات تتبع الأخطاء

بمجرد تشغيل وضع التصحيح، يمكنك تحرير كيفية قيام تدفق البيانات بمعاينة البيانات. يمكن تعديل إعدادات التصحيح بالنقر على "إعدادات التصحيح" على شريط أدوات لوحة تدفق البيانات. يمكنك تحديد حد الصف أو مصدر الملف لاستخدامه لكل تحويل من تحويلات المصدر الخاصة بك هنا. حدود الصفوف في هذا الإعداد مخصصة فقط لجلسة تصحيح الأخطاء الحالية. يمكنك أيضًا تحديد الخدمة المرحلية المرتبطة لاستخدامها لمصدر Azure Synapse Analytics.

Debug settings

إذا كانت لديك معلمات في تدفق البيانات أو أي من مجموعات البيانات المشار إليها، فيمكنك تحديد القيم التي يجب استخدامها أثناء التصحيح عن طريق تحديد علامة التبويب المعلمات .

استخدم إعدادات أخذ العينات هنا للإشارة إلى عينات الملفات أو نماذج جداول البيانات حتى لا تضطر إلى تغيير مجموعات البيانات المصدر. باستخدام نموذج ملف أو جدول هنا، يمكنك الاحتفاظ بالمنطق وإعدادات الخصائص نفسها في تدفق البيانات أثناء الاختبار مقابل مجموعة فرعية من البيانات.

Debug settings parameters

إن وقت تشغيل التكامل الافتراضي المستخدم لوضع التصحيح في تدفقات البيانات هو عقدة عامل فردية صغيرة رباعية الذاكرة مع عقدة تشغيل فردية رباعية الذاكرة. يعمل هذا بشكل جيد مع عينات أصغر من البيانات عند اختبار منطق تدفق البيانات. إذا قمت بتوسيع حدود الصفوف في إعدادات تصحيح الأخطاء أثناء معاينة البيانات أو قمت بتعيين عدد أكبر من الصفوف التي تم أخذ عينات منها في المصدر أثناء تصحيح المسار، فقد ترغب في التفكير في تعيين بيئة حوسبة أكبر في وقت تشغيل Azure Integration الجديد. ثم يمكنك إعادة تشغيل جلسة التصحيح باستخدام بيئة الحوسبة الأكبر.

معاينة البيانات

مع تشغيل التصحيح، ستضيء علامة التبويب معاينة البيانات على اللوحة السفلية. دون تشغيل وضع التصحيح، سيعرض لك تدفق البيانات الوصفية الحالية فقط داخل وخارج كل تحويل من تحويلاتك في علامة التبويب فحص. ستقوم معاينة البيانات فقط بالاستعلام عن عدد الصفوف التي قمت بتعيينها كحدود في إعدادات تصحيح الأخطاء. انقر فوق تحديث لإعداد معاينة البيانات.

Data preview

ملاحظة

تحدد مصادر الملفات الصفوف التي تراها فقط، وليس الصفوف التي تتم قراءتها. بالنسبة لمجموعات البيانات الكبيرة جدًا، يوصى بأخذ جزء صغير من هذا الملف واستخدامه للاختبار. يمكنك تحديد ملف مؤقت في إعدادات التصحيح لكل مصدر يمثل نوع مجموعة بيانات الملف.

عند التشغيل في وضع التصحيح في تدفق البيانات، لن تتم كتابة بياناتك في تحويل التجمع. تهدف جلسة التصحيح إلى أن تكون بمثابة أداة اختبار لتحولاتك. المتلقي غير مطلوب أثناء التصحيح ويتم تجاهله في تدفق البيانات. إذا كنت ترغب في اختبار كتابة البيانات في حوضك، فقم بتنفيذ تدفق البيانات من المسار واستخدم تنفيذ التصحيح من المسار.

معاينة البيانات هي لقطة لبياناتك المحولة باستخدام حدود الصفوف وأخذ عينات البيانات من إطارات البيانات في ذاكرة Spark. لذلك، لا يتم استخدام برامج تشغيل المتلقي أو اختبارها في هذا السيناريو.

اختبار شروط الانضمام

عند اختبار الوحدة لعمليات تحويلات الصلات أو الموجودة أو البحث، تأكد من استخدام مجموعة صغيرة من البيانات المعروفة للاختبار الخاص بك. يمكنك استخدام خيار إعدادات تصحيح الأخطاء أعلاه لتعيين ملف مؤقت لاستخدامه في الاختبار. هذا ضروري لأنه عند تحديد صفوف من مجموعة بيانات كبيرة أو أخذ عينات منها، لا يمكنك التنبؤ بالصفوف والمفاتيح التي ستتم قراءتها في التدفق للاختبار. تكون النتيجة غير حتمية، ما يعني أن شروط الانضمام الخاصة بك قد تفشل.

الإجراءات السريعة

بمجرد أن ترى معاينة البيانات، يمكنك إنشاء تحويل سريع للمادة المطبوعة أو الإزالة أو إجراء تعديل على عمود. انقر فوق رأس العمود ثم حدد أحد الخيارات من شريط أدوات معاينة البيانات.

Screenshot shows the data preview toolbar with options: Typecast, Modify, Statistics, and Remove.

بمجرد تحديد تعديل، سيتم تحديث معاينة البيانات على الفور. انقر فوق تأكيد في الزاوية العلوية اليمنى لإنشاء تحويل جديد.

Screenshot shows the Confirm button.

سينشئ مادة مطبوعة وتعديل تحويل عمود مشتق وسينشئ إزالة تحويل تحديد.

Screenshot shows Derived Column’s Settings.

ملاحظة

إذا قمت بتحرير تدفق البيانات، فستحتاج إلى إعادة جلب معاينة البيانات قبل إضافة تحويل سريع.

تنميط البيانات

سيؤدي تحديد عمود في علامة تبويب معاينة البيانات والنقر فوق الإحصائيات في شريط أدوات معاينة البيانات إلى ظهور مخطط في أقصى يسار شبكة البيانات مع إحصائيات مفصلة حول كل حقل. ستحدد الخدمة تحديدًا بناءً على عينات البيانات الخاصة بنوع المخطط المراد عرضه. سيتم تعيين الحقول ذات العلاقة الأساسية بشكل افتراضي إلى المخططات فارغ/غير فارغ بينما ستعرض البيانات الفئوية والرقمية ذات العلاقة الأساسية المنخفضة مخططات شريطية تعرض تردد قيمة البيانات. سترى أيضًا الحد الأقصى / الطول لحقول السلسلة، والقيم الدنيا / القصوى في الحقول الرقمية، والتطوير القياسي، والنسب المئوية، والأعداد، والمتوسط.

Column statistics

الخطوات التالية