كيفية تسريع التحقق من صحة

ضبط Hyperparameter من طرازات اباتشي SparkML يستغرق وقتا طويلا جدا، اعتمادا على حجم الشبكة المعلمة. يمكنك تحسين أداء خطوة التحقق من الصحة في SparkML لتسريع الأمور:

  • تخزين البيانات مؤقتا قبل تشغيل أية تحويلات ميزة أو خطوات النمذجة، بما في ذلك التحقق من صحة مشتركة. العمليات التي تشير إلى البيانات عدة مرات الاستفادة من ذاكرة التخزين المؤقت. تذكر استدعاء إجراء على DataFrame ذاكرة التخزين المؤقت لكي نافذ المفعول.
  • زيادة المعلمة parallelism داخل CrossValidator ، الذي يعين عدد مؤشرات الترابط لاستخدامها عند تشغيل خوارزميات متوازية. الإعداد الافتراضي هو 1. راجع وثائق كروسفاليدراتور لمزيد من المعلومات.
  • لا تستخدم خط الأنابيب كمقدر داخل CrossValidator المواصفات. في بعض الحالات حيث يتم ضبطها مع النماذج، تشغيل خط أنابيب كامل داخل CrossValidator المنطقي. ومع ذلك، ينفذ هذا خط أنابيب كامل لكل تركيبة المعلمة وطي. لذلك، إذا كان يتم ضبط النموذج فقط، قم بتعيين مواصفات الطراز كمقدر داخل CrossValidator .

ملاحظة

CrossValidator يمكن تعيين كمرحلة النهائي داخل خط أنابيب بعد featurizers. أفضل نموذج تم تحديده بواسطة CrossValidator الإخراج.