تحميل البيانات للتعلم الآلي والتعلم العميق

مقالة
03/05/2024

يغطي هذا القسم معلومات حول تحميل البيانات خصيصا لتطبيقات ML وDL. للحصول على معلومات عامة حول تحميل البيانات، راجع استيعاب البيانات في مستودع Databricks.

تخزين الملفات لتحميل البيانات ونقاط التحقق النموذجية

قد تحتاج تطبيقات التعلم الآلي إلى استخدام التخزين المشترك لتحميل البيانات ونقاط التحقق النموذجية. وهذا مهم بشكل خاص للتعلم العميق الموزع.

يوفر Azure Databricks نظام ملفات Databricks (DBFS) للوصول إلى البيانات على نظام مجموعة باستخدام كل من Spark وواجهات برمجة التطبيقات للملف المحلي.

تحميل البيانات الجدولية

يمكنك تحميل بيانات التعلم الآلي الجدولي من الجداول أو الملفات (على سبيل المثال، راجع القراءة والكتابة إلى ملفات CSV). يمكنك تحويل Apache Spark DataFrames إلى Pandas DataFrames باستخدام أسلوبtoPandas() PySpark، ثم التحويل اختياريا إلى تنسيق NumPy باستخدام أسلوبto_numpy() PySpark.

إعداد البيانات لضبط نماذج اللغات الكبيرة

يمكنك إعداد بياناتك لضبط مصدر مفتوح نماذج اللغات الكبيرة باستخدام Hugging Face Transformers و Hugging Face Datasets.

إعداد البيانات لضبط نماذج Hugging Face بدقة

إعداد البيانات للتدريب الموزع

يغطي هذا القسم طريقتين لإعداد البيانات للتدريب الموزع: Petastorm وTFRecords.

إعداد البيانات للتدريب الموزع
- Petastorm (مستحسن)
- TFRecord

تحميل البيانات للتعلم الآلي والتعلم العميق

تخزين الملفات لتحميل البيانات ونقاط التحقق النموذجية

تحميل البيانات الجدولية

إعداد البيانات لضبط نماذج اللغات الكبيرة

إعداد البيانات للتدريب الموزع

الموارد الإضافية