تحميل البيانات للتعلم الآلي والتعلم العميق

يغطي هذا القسم معلومات حول تحميل البيانات خصيصا لتطبيقات ML وDL. للحصول على معلومات عامة حول تحميل البيانات، راجع استيعاب البيانات في مستودع Databricks.

تخزين الملفات لتحميل البيانات ونقاط التحقق النموذجية

قد تحتاج تطبيقات التعلم الآلي إلى استخدام التخزين المشترك لتحميل البيانات ونقاط التحقق النموذجية. وهذا مهم بشكل خاص للتعلم العميق الموزع.

يوفر Azure Databricks نظام ملفات Databricks (DBFS) للوصول إلى البيانات على نظام مجموعة باستخدام كل من Spark وواجهات برمجة التطبيقات للملف المحلي.

تحميل البيانات الجدولية

يمكنك تحميل بيانات التعلم الآلي الجدولي من الجداول أو الملفات (على سبيل المثال، راجع القراءة والكتابة إلى ملفات CSV). يمكنك تحويل Apache Spark DataFrames إلى Pandas DataFrames باستخدام أسلوبtoPandas() PySpark، ثم التحويل اختياريا إلى تنسيق NumPy باستخدام أسلوبto_numpy() PySpark.

إعداد البيانات لضبط نماذج اللغات الكبيرة

يمكنك إعداد بياناتك لضبط مصدر مفتوح نماذج اللغات الكبيرة باستخدام Hugging Face Transformers و Hugging Face Datasets.

إعداد البيانات لضبط نماذج Hugging Face بدقة

إعداد البيانات للتدريب الموزع

يغطي هذا القسم طريقتين لإعداد البيانات للتدريب الموزع: Petastorm وTFRecords.