بيانات التحميل

يغطي هذا القسم معلومات حول تحميل البيانات خصيصا لتطبيقات ML و DL. للحصول على معلومات عامة حول تحميل البيانات، راجع دليل البيانات.

تخزين الملفات لتحميل البيانات ونقطة اختبار الطراز

قد تحتاج تطبيقات التعلم الآلي إلى استخدام التخزين المشترك لتحميل البيانات ووضع نقاط اختبار نموذجية. وهذا أمر مهم بشكل خاص للتعلم العميق الموزع. يوفر Databricks Databricks ملف النظام (DBFS) للوصول إلى البيانات على كتلة باستخدام كل من سبارك و واجهات برمجة التطبيقات الملف المحلي.

تحميل البيانات الجدولية

يمكنك تحميل بيانات التعلم الآلي الجدولي من الجداول أو الملفات (على سبيل المثال، راجع ملف CSV). يمكنك تحويل أباتشي سبارك DataFrames إلى Pandas DataFrames باستخدام طريقة PySpark ، ثم تحويلها اختياريا إلى تنسيق NumPy باستخدام طريقة الباندا .

إعداد البيانات للتدريب الموزع

يغطي هذا القسم طريقتين لإعداد البيانات للتدريب الموزع: بيتاستورم وTFRecords.