ستريك البيانات أوتومل

هام

هذه الميزة في المعاينة العامة.

تساعدك ماكينات معالجة البيانات AutoML على تطبيق التعلم الآلي تلقائيا على مجموعة بيانات. يقوم بإعداد مجموعة البيانات لتدريب النماذج ثم يقوم بإجراء مجموعة من التجارب وسجلاتها، وإنشاء نماذج متعددة وضبطها وتقييمها. يعرض النتائج ويوفر دفتر ملاحظات Python مع التعليمات البرمجية المصدر لكل تشغيل تجريبي حتى تتمكن من مراجعة التعليمات البرمجية وإعادة إنتاجها وتعديلها. يقوم AutoML أيضا بحساب إحصائيات الملخص على مجموعة البيانات الخاصة بك وحفظ هذه المعلومات في دفتر ملاحظات يمكنك مراجعته لاحقا.

AutoML تلقائيا بتوزيع محاكمات ضبط المسافات الفائقة عبر العقد العاملة من كتلة.

يتم بناء كل نموذج من مكونات مفتوحة المصدر ويمكن بسهولة تحريرها ودمجها في خطوط أنابيب التعلم الآلي الخاص بك. يمكنك استخدام Databricks AutoML للتراجع والتصنيف ومشاكل التنبؤ. وهو يقيم نماذج على أساس خوارزميات من scikit التعلم، xgboost، وحزم LightGBM.

يمكنك تشغيل AutoML باستخدام واجهة المستخدم أو واجهة برمجة تطبيقات Python.

المتطلبات

  • Databricks وقت التشغيل 8.3 مل أو أكثر.
  • للتنبؤ بالسلاسل الزمنية، Databricks وقت التشغيل 10.0 مل أو أكثر.
  • يمكن تثبيت أية مكتبات إضافية غير تلك المتوفرة مع وقت تشغيل Databricks وقت التشغيل ML على الكتلة.

خوارزميات AUTOML

يقوم AutoML بإعادة كريكيت البيانات بإنشاء وتقييم النماذج استنادا إلى هذه الخوارزميات:

أخذ عينات من مجموعات البيانات الكبيرة

ملاحظة

لا يتم تطبيق أخذ العينات على مشاكل التنبؤ.

بينما يوزع AutoML تجارب ضبط المسافات الفائقة عبر العقد العاملة للكتلة، يتم تدريب كل طراز على عقدة عامل واحد. مع Databricks وقت التشغيل 9.1 LTS ML وما فوق، AutoML تلقائيا تقديرات الذاكرة المطلوبة لتحميل وتدريب مجموعة البيانات وعينات مجموعة البيانات إذا لزم الأمر. لا يعتمد الكسر أخذ العينات على نوع عقدة الكتلة أو مقدار الذاكرة على كل عقدة. يتم استخدام مجموعة البيانات التي تم أخذ عينات منها للتدريب على النماذج.

بالنسبة لمشاكل التصنيف، يستخدم AutoML أسلوب PySpark sampleBysampleBy لأخذ العينات الطبقية للحفاظ على توزيع التسمية الهدف.

بالنسبة لمشاكل الانحدار، يستخدم AutoML أسلوب PySpark samplesample.

الكشف عن النوع الدلالي

ملاحظة

لا يتم تطبيق الكشف الدلالي عن النوع على مشاكل التنبؤ.

مع Databricks وقت التشغيل 9.1 LTS ML وما فوق، يحاول AutoML اكتشاف ما إذا كانت الأعمدة لها نوع دلالي يختلف عن نوع بيانات Spark أو pandas في مخطط الجدول. يعامل AutoML هذه الأعمدة كنوع دلالي تم اكتشافه. هذه الاكتشافات هي أفضل جهد وقد يغيب عن وجود أنواع الدلالية في بعض الحالات. يمكنك أيضا تعيين النوع الدلالي لعمود يدويا أو إخبار AutoML بعدم تطبيق الكشف عن النوع الدلالي على عمود باستخدام التعليقات التوضيحية.

وبشكل خاص، AutoML يجعل هذه التعديلات:

  • يتم التعامل مع أعمدة السلسلة والأعداد الصحيحة التي تمثل بيانات التاريخ أو الطابع الزمني كنوع طابع زمني.
  • يتم التعامل مع أعمدة السلسلة التي تمثل البيانات الرقمية كنوع رقمي.

مع Databricks وقت التشغيل 10.1 مل وما فوق، AutoML أيضا يجعل هذه التعديلات:

  • يتم التعامل مع الأعمدة الرقمية التي تحتوي على معرفات القاطع كميزة قطعية.
  • يتم التعامل مع أعمدة السلسلة التي تحتوي على نص إنجليزي كميزة نصية.

التعليقات التوضيحية للنوع الدلالي

باستخدام Databricks Runtime 10.1 ML وما فوق، يمكنك التحكم يدويا في النوع الدلالي المعين عن طريق وضع تعليق توضيحي من النوع الدلالي على عمود. لإضافة تعليق توضيحي يدويا على نوع العمود الدلالي <column_name> ك ، استخدم بناء <semantic_type> الجملة التالي:

metadata_dict = df.schema["<column_name>"].metadata
metadata_dict["spark.contentAnnotation.semanticType"] = "<semantic_type>"
df = df.withMetadata("<column_name>", metadata_dict)

<semantic_type> يمكن أن يكون أحد ما يلي:

  • categoricalيحتوي العمود على قيم قطعية (على سبيل المثال، القيم الرقمية التي يجب معاملتها كم معرفات).
  • numericيحتوي العمود على قيم رقمية (على سبيل المثال، قيم السلسلة التي يمكن تحليلها إلى أرقام).
  • datetimeيحتوي العمود على قيم الطابع الزمني (قيم السلسلة أو العددية أو التاريخ التي يمكن تحويلها إلى طوابع زمنية).
  • textالعمود سلسلة يحتوي على نص الإنجليزية.

لتعطيل الكشف عن النوع الدلالي على عمود، استخدم التعليق التوضيحي الخاص بالكلمة الأساسية native .

واجهة المستخدم التلقائية لML

واجهة المستخدم AutoML خطوات لك من خلال عملية تدريب نموذج على مجموعة بيانات. للوصول إلى واجهة المستخدم:

  1. حدد التعلم الآلي من محول الشخصية في أعلى الشريط الجانبي الأيسر.

  2. في الشريط الجانبي، انقر فوق إنشاءAutoML.

    يمكنك أيضا إنشاء تجربة AutoML جديدة من صفحة التجارب.

    تعرض صفحة تجربة تكوين AutoML. في هذه الصفحة، يمكنك تكوين عملية AutoML، وتحديد مجموعة البيانات، ونوع المشكلة، والهدف أو عمود التسمية للتنبؤ، والمقياس لاستخدام لتقييم وتسجيل تشغيل التجربة، ووقف الشروط.

إعداد التصنيف أو مشاكل الانحدار في واجهة المستخدم

  1. في حقل Compute، حدد كتلة تشغيل Databricks وقت التشغيل 8.3 ML أو أعلى.
  2. من القائمة المنسدلة نوع المشكلة ML، حدد الانحدار أو التصنيف. إذا كنت تحاول التنبؤ بقيمة رقمية مستمرة لكل ملاحظة، مثل الدخل السنوي، فحدد الانحدار. إذا كنت تحاول تعيين كل ملاحظة إلى إحدى فئات منفصلة، مثل مخاطر الائتمان الجيدة أو مخاطر الائتمان السيئة، حدد التصنيف.
  3. ضمن Dataset، انقر فوق استعراض. يظهر مربع حوار يسرد قواعد البيانات والجداول المتوفرة. انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
  4. انقر في حقل هدف التنبؤ. تظهر منسدلة تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
  5. يظهر حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل .
  6. يمكنك تحديد خيارات تكوين إضافية ضمن التكوين المتقدم (اختياري).
    • مقياس التقييم هو المقياس الأساسي المستخدم لتسجيل الأشواط.
    • يمكنك تحرير شروط الإيقاف الافتراضية. بشكل افتراضي، تتوقف التجربة بعد 60 دقيقة أو عندما تنتهي من 200 تشغيل، أيهما يأتي أولا.
    • في حقل دليل البيانات، يمكنك إدخال موقع DBFS حيث يتم حفظ دفاتر الملاحظات التي تم إنشاؤها أثناء عملية AutoML. إذا تركت الحقل فارغا، يتم حفظ دفاتر الملاحظات كقطع أثرية لتدفق MLflow.

إعداد مشاكل التنبؤ في واجهة المستخدم

  1. في حقل Compute، حدد كتلة تشغيل Databricks وقت التشغيل 10.0 مل أو أعلى.
  2. من القائمة المنسدلة نوع المشكلة ML، حدد التنبؤ.
  3. ضمن Dataset، انقر فوق استعراض. يظهر مربع حوار يسرد قواعد البيانات والجداول المتوفرة. انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
  4. انقر في حقل هدف التنبؤ. تظهر منسدلة تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
  5. انقر في حقل عمود الوقت. تظهر منسدلة تعرض أعمدة مجموعة البيانات التي هي من النوع timestamp أو date . حدد العمود الذي يحتوي على الفترات الزمنية للسلسلة الزمنية.
  6. للتنبؤ متعدد السلاسل، حدد العمود (الأعمدة) الذي يحدد السلسلة الزمنية الفردية من القائمة المنسدلة معرفات السلسلة الزمنية. AutoML تجميع البيانات بواسطة هذه الأعمدة كسلسلة زمنية مختلفة وتدريب طراز لكل سلسلة بشكل مستقل. إذا تركت هذا الحقل فارغا، يفترض AutoML أن مجموعة البيانات تحتوي على سلسلة زمنية واحدة.
  7. في حقلي أفق وتردد التنبؤ، حدد عدد الفترات الزمنية في المستقبل التي يجب أن تحسب AutoML القيم المتوقعة لها. في المربع الأيمن، أدخل عدد الفترات الصحيحة للتنبؤ. في المربع الأيمن، حدد الوحدات.
  8. يظهر حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل .
  9. يمكنك تحديد خيارات تكوين إضافية ضمن التكوين المتقدم (اختياري).
    • مقياس التقييم هو المقياس الأساسي المستخدم لتسجيل الأشواط.
    • يمكنك تحرير شرط الإيقاف الافتراضي. بشكل افتراضي، تتوقف التجربة بعد 120 دقيقة.
    • في حقل دليل البيانات، يمكنك إدخال موقع DBFS حيث يتم حفظ دفاتر الملاحظات التي تم إنشاؤها أثناء عملية AutoML. إذا تركت الحقل فارغا، يتم حفظ دفاتر الملاحظات كقطع أثرية لتدفق MLflow.

تشغيل التجربة ومراقبة النتائج

لبدء تجربة AutoML، انقر فوق بدء تشغيل AutoML. تبدأ التجربة في التشغيل، وتظهر صفحة التدريب على "مكافحة غسل الأموال التلقائي". لتحديث جدول التشغيل، انقر فوق الزر تحديث.

من هذه الصفحة، يمكنك القيام بما يلي:

  • أوقف التجربة في أي وقت.
  • افتح دفتر ملاحظات استكشاف البيانات.
  • تشغيل جهاز العرض.
  • انتقل إلى صفحة التشغيل لأي تشغيل.

مع Databricks وقت التشغيل 10.1 مل وما فوق، يعرض AutoML تنبيهات للمشكلات المحتملة مع مجموعة البيانات، مثل أنواع الأعمدة غير معتمد أو أعمدة أساسية عالية.

ملاحظة

Databricks قصارى جهدها للإشارة إلى الأخطاء أو المشكلات المحتملة. ومع ذلك، قد لا يكون هذا شامل وقد لا يلتقط المشكلات أو الأخطاء التي قد تبحث عنها. يرجى التأكد من إجراء الاستعراضات الخاصة بك كذلك.

للاطلاع على أي تنبيهات لمجموعة البيانات، انقر فوق علامة التبويب تنبيهات في صفحة التدريب، أو على صفحة التجربة بعد انتهاء التجربة.

تنبيهات AUTOML

عند اكتمال التجربة، يمكنك:

  • سجل أحد الطرازات ونشره باستخدام MLflow.
  • انقر على تحرير أفضل طراز لمراجعة دفتر الملاحظات الذي أنشأ أفضل طراز وتحريره.
  • افتح دفتر ملاحظات استكشاف البيانات.
  • البحث عن وتصفية وفرز عمليات التشغيل في جدول التشغيل.
  • راجع تفاصيل أي تشغيل:
    • لفتح دفتر الملاحظات الذي يحتوي على التعليمات البرمجية المصدر لتشغيل تجريبي، انقر فوق في العمود المصدر.
    • لعرض صفحة التشغيل مع تفاصيل حول تشغيل تجريبي، انقر فوق في العمود وقت البدء.
    • للاطلاع على معلومات حول الطراز الذي تم إنشاؤه، بما في ذلك مقتطفات التعليمات البرمجية لإجراء التنبؤات، انقر في عمود النماذج.

للعودة إلى تجربة AutoML هذه لاحقا، ابحث عنها في الجدول في صفحة التجارب.

تسجيل طراز ونشره من واجهة المستخدم AutoML

  1. انقر فوق الارتباط في العمود نماذج للطراز للتسجيل. عند اكتمال تشغيل، يكون أفضل طراز (استنادا إلى المقياس الأساسي) هو الصف العلوي.

    يعرض قسم artifacts من صفحة التشغيل للتشغيل الذي أنشأ الطراز.

  2. انقر فوق زر نموذج التسجيل لتسجيل النموذج في Model Registry.

  3. انقر فوق نماذج أيقونةنماذج في الشريط الجانبي للانتقال إلى "التسجيل النموذجي".

  4. انقر فوق اسم النموذج في جدول الطراز. تعرض صفحة الطراز المسجل. من هذه الصفحة، يمكنك خدمة النموذج.

واجهة برمجة تطبيقات بيثون AutoML

  1. إنشاء دفتر ملاحظات وإرفاقه إلى كتلة تشغيل Databricks وقت التشغيل 8.3 مل أو أعلى.

  2. قم بتحميل Spark أو pandas DataFrame من مصدر بيانات موجود أو قم بتحميل ملف بيانات إلى DBFS ثم قم بتحميل البيانات في دفتر الملاحظات.

    df = spark.read.parquet("<folder-path>")
    
  3. لبدء تشغيل AutoML تمرير إطار البيانات إلى AutoML. راجع مواصفات API للحصول على التفاصيل.

  4. عند بدء تشغيل AutoML، يظهر عنوان URL تجربة MLflow في وحدة التحكم. استخدم URL هذا لمراقبة تقدم التشغيل. قم بتحديث تجربة MLflow لرؤية التجارب عند اكتمالها.

  5. بعد اكتمال تشغيل AutoML:

    • استخدم الارتباطات الموجودة في ملخص الإخراج للانتقال إلى تجربة تدفق MLflow أو إلى دفتر الملاحظات الذي حقق أفضل النتائج.
    • استخدم الارتباط إلى دفتر ملاحظات استكشاف البيانات للحصول على بعض الآراء حول البيانات التي تم تمريرها إلى AutoML. يمكنك أيضا إرفاق دفتر الملاحظات هذا بنفس الكتلة وإعادة تشغيل دفتر الملاحظات لإعادة إنتاج النتائج أو إجراء تحليل بيانات إضافي.
    • استخدم الكائن الملخص الذي تم إرجاعه من استدعاء AutoML لاستكشاف مزيد من التفاصيل حول التجارب أو لتحميل نموذج تم تدريبه بواسطة تجربة معينة. راجع مستندات API للحصول على التفاصيل.
    • استنسخ أي دفتر ملاحظات تم إنشاؤه من التجارب ثم أعد تشغيل دفتر الملاحظات عن طريق إرفاقه بنفس الكتلة لإعادة إنتاج النتائج. يمكنك أيضا إجراء التعديلات اللازمة وإعادة تشغيلها لتدريب نماذج إضافية وتسجيلها لنفس التجربة.

مواصفات PYTHON API

يوفر PYTHON API دالات لبدء تشغيل AutoML التصنيف والانحدار. كل استدعاء دالة يدرب مجموعة من النماذج ويولد دفتر ملاحظات تجريبي لكل نموذج.

التصنيف

databricks.automl.classify(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  primary_metric: Optional[str],
  data_dir: Optional[str],
  timeout_minutes: Optional[int],
  max_trials: Optional[int]
) -> AutoMLSummary

الانحدار

databricks.automl.regress(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  primary_metric: Optional[str],
  data_dir: Optional[str],
  timeout_minutes: Optional[int],
  max_trials: Optional[int]
) -> AutoMLSummary

التنبؤ

databricks.automl.forecast(
  dataset: Union[pyspark.sql.dataframe.DataFrame, pandas.core.frame.DataFrame, pyspark.pandas.DataFrame],
  *,
  target_col: str,
  time_col: str,
  identity_col: Union[str, List[str], NoneType],
  horizon: int,
  frequency: int,
  data_dir: Union[str, NoneType],
  primary_metric: str,
  timeout_minutes: int
) -> AutoMLSummary

المعلمات

التصنيف والتراجع

اسم الحقل النوع الوصف
مجموعة بيانات (بزبارك) باندا إطار البيانات. إطار البيانات إدخال DataFrame الذي يحتوي على ميزات التدريب والهدف.
primary_metric شارع المقياس المستخدم لتقييم أداء الطراز وترتيبه. مقاييس معتمدة للتراجع: "r2" (افتراضي)، "mae"، "rmse"، "mse" مقاييس معتمدة للتصنيف: "f1" (افتراضي)، "log_loss"، "الدقة"، "الدقة"، "roc_auc"
target_col شارع اسم العمود لتسمية الهدف.
data_dir str من الشكل
dbfs:/<folder-name>
مسار DBFS المستخدم لتخزين البيانات المتوسطة. هذا المسار مرئي لكل من عقد برنامج التشغيل والعقد العاملة. إذا كان فارغا، يحفظ AutoML البيانات المتوسطة كقطع أثرية لتدفق MLflow.
timeout_minutes Int (اختياري) الحد الأقصى من الوقت لانتظار إكمال المحاكمات AutoML. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد طراز بدقة أفضل.

الافتراضي: بلا (لا يوجد حد زمني)

الحد الأدنى للقيمة: 5 دقائق

يتم الإعلام عن خطأ إذا كانت المهلة قصيرة جدا بحيث لا تسمح لإكمال تجربة واحدة على الأقل.
max_trials Int (اختياري) الحد الأقصى لعدد المحاكمات التي يجب تشغيلها.

الافتراضي: 20

إذا timeout_minutes=بلا، يعمل AutoML على الحد الأقصى لعدد المحاكمات.

التنبؤ

اسم الحقل النوع الوصف
مجموعة بيانات (بزبارك) باندا إطار البيانات. إطار البيانات إدخال DataFrame الذي يحتوي على ميزات التدريب والهدف.
primary_metric شارع المقياس المستخدم لتقييم أداء الطراز وترتيبه. المقاييس المعتمدة: "smape" (الافتراضي) "mse" أو "rmse" أو "mae" أو "mdape".
target_col شارع اسم العمود لتسمية الهدف.
data_dir str من الشكل
dbfs:/<folder-name>
مسار DBFS المستخدم لتخزين البيانات المتوسطة. هذا المسار مرئي لكل من عقد برنامج التشغيل والعقد العاملة. إذا كان فارغا، يحفظ AutoML البيانات المتوسطة كقطع أثرية لتدفق MLflow.
timeout_minutes Int (اختياري) الحد الأقصى من الوقت لانتظار إكمال المحاكمات AutoML. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد طراز بدقة أفضل.

الافتراضي: بلا (لا يوجد حد زمني)

الحد الأدنى للقيمة: 5 دقائق

يتم الإعلام عن خطأ إذا كانت المهلة قصيرة جدا بحيث لا تسمح لإكمال تجربة واحدة على الأقل.
max_trials Int (اختياري) الحد الأقصى لعدد المحاكمات التي يجب تشغيلها.

الافتراضي: 20

إذا timeout_minutes=بلا، يعمل AutoML على الحد الأقصى لعدد المحاكمات.
time_col شارع اسم عمود الوقت للتنبؤ.
identity_col الاتحاد [str، قائمة] (اختياري) العمود (الأعمدة) التي تحدد السلسلة الزمنية للتنبؤ بالسلاسل المتعددة. مجموعات AutoML بواسطة هذه الأعمدة وعمود الوقت للتنبؤ.
معدل التكرار شارع تكرار السلسلة الزمنية للتنبؤ. هذه هي الفترة التي يتوقع أن تحدث بها الأحداث. القيم الممكنة:

"W" (أسابيع)

"D" / "أيام" / "يوم"

"ساعات" / "ساعة" / "ساعة" / "ح"

"م" / "دقيقة" / "دقيقة" / "دقائق" / "T"

"S" / "ثانية" / "ثانية" / "الثانية"
أفق Int عدد الفترات المستقبلية التي يجب إرجاع التنبؤات لها. الوحدات هي تكرار السلسلة الزمنية.

المرتجعات

AutoMLSummary

كائن الملخص لتشغيل تصنيف AutoML الذي يصف المقاييس والمعلمات والتفاصيل الأخرى لكل تجربة من التجارب. يمكنك أيضا استخدام هذا الكائن لتحميل النموذج الذي تم تدريبه بواسطة تجربة معينة.

الخاصية النوع الوصف
التجربه mlflow.entities.Experiment تجربة تدفق MLflow المستخدمة لتسجيل التجارب.
المحاكمات قائمة [معلومات تجريبية] قائمة تحتوي على معلومات حول كافة التجارب التي تم تشغيلها.
best_trial معلومات تجريبية معلومات حول التجربة التي أسفرت عن أفضل درجة مرجحة للمقياس الأساسي.
metric_distribution شارع توزيع الدرجات المرجحة للمقياس الأساسي في جميع التجارب.

TrialInfo

كائن ملخص لكل تجربة فردية.

الخاصية النوع الوصف
notebook_path شارع المسار إلى دفتر الملاحظات الذي تم إنشاؤه لهذه التجربة في مساحة العمل.
notebook_url شارع عنوان URL لدفتر الملاحظات الذي تم إنشاؤه لهذه التجربة.
mlflow_run_id شارع معرف تشغيل MLflow المقترن بهذا التشغيل التجريبي.
القياس ديكت [str، تعويم] المقاييس المسجلة في MLflow لهذه التجربة.
params ديكت [str، str] المعلمات المسجلة في MLflow التي تم استخدامها لهذه التجربة.
model_path شارع عنوان URL ARTIFACT MLflow للنموذج المدرب في هذه التجربة.
model_description شارع وصف مختصر للنموذج و المقاييس الفائقة المستخدمة لتدريب هذا النموذج.
المدة شارع مدة التدريب في دقائق.
المعالجات المسبقة شارع وصف المعالجات المسبقة تشغيل قبل تدريب النموذج.
evaluation_metric_score عائم درجة المقياس الأساسي، التي تم تقييمها لمجموعة بيانات التحقق من الصحة.
الأسلوب الوصف
load_model() تحميل النموذج الذي تم إنشاؤه في هذه التجربة، وتسجيله كقطعة أثرية MLflow.

أمثلة API

راجع دفاتر الملاحظات هذه للبدء باستخدام AutoML.

دفتر مثال تصنيف AutoML

الحصول على دفتر ملاحظات

دفتر ملاحظات مثال الانحدار التلقائي

الحصول على دفتر ملاحظات

دفتر ملاحظات مثال التنبؤ التلقائي بML

الحصول على دفتر ملاحظات

databricks-automl-runtime حزمة

مع Databricks وقت التشغيل 9.1 LTS ML وما فوق، AutoML يعتمد على databricks-automl-runtime الحزمة، التي تحتوي على مكونات مفيدة خارج AutoML، ويساعد أيضا على تبسيط أجهزة الكمبيوتر المحمولة التي تم إنشاؤها بواسطة التدريب AutoML. databricks-automl-runtime متوفر على databricks-automl-runtime.

التقييدات

  • يتم اعتماد أنواع الميزات التالية فقط:

    • رقمية ( ByteType , , , , , و ShortTypeIntegerTypeLongTypeFloatTypeDoubleType )
    • منطقي
    • سلسلة (نص قاطع أو إنجليزي)
    • الطوابع الزمنية ( TimestampType , DateType )
  • أنواع الميزات غير المذكورة أعلاه غير معتمدة. على سبيل المثال، الصور غير معتمدة.

  • مع Databricks وقت التشغيل 9.0 مل وما دونها، يستخدم التدريب AutoML مجموعة بيانات التدريب الكامل على عقدة واحدة. يجب أن تتناسب مجموعة بيانات التدريب مع ذاكرة عقدة عامل واحد. إذا واجهت مشكلات نفاد الذاكرة، حاول استخدام عقدة عامل مع ذاكرة أكثر. راجع إنشاء كتلة.

    بدلا من ذلك، إذا أمكن، استخدم Databricks Runtime 9.1 LTS ML أو أعلى، حيث يقوم AutoML تلقائيا بالعينات من مجموعة البيانات الخاصة بك إذا كانت كبيرة جدا بحيث لا يمكن احتواؤها في ذاكرة عقدة عامل واحد.