Penyetelan hiperparameter
Databricks Runtime untuk Pembelajaran Mesin menggabungkan Hyperopt, alat sumber terbuka yang mengotomatiskan proses pemilihan model dan penyetelan hiperparameter.
Penyetelan hyperparameter dengan Ray
Databricks Runtime ML mencakup Ray, kerangka kerja sumber terbuka yang berspesialisasi dalam pemrosesan komputasi paralel untuk menskalakan alur kerja ML dan aplikasi AI. Lihat Menggunakan Ray di Azure Databricks.
Penyetelan hiperparameter dengan Hyperopt
Databricks Runtime ML mencakup Hyperopt, pustaka Python yang memfasilitasi penyetelan hiperparameter terdistribusi dan pemilihan model. Dengan Hyperopt, Anda dapat memindai satu set model Python sambil memvariasikan algoritma dan hiperparameter di seluruh ruang yang Anda tentukan. Hyperopt bekerja dengan algoritma ML terdistribusi seperti Apache Spark MLlib dan Horovod, serta dengan model ML mesin tunggal seperti scikit-learn dan TensorFlow.
Langkah-langkah dasar saat menggunakan Hyperopt adalah:
- Tentukan fungsi objektif untuk diminimalkan. Biasanya ini adalah kehilangan pelatihan atau validasi.
- Tentukan ruang pencarian hiperparameter. Hyperopt menyediakan ruang pencarian kondisional, yang memungkinkan Anda membandingkan algoritma ML yang berbeda dalam menjalankan yang sama.
- Tentukan algoritma pencarian. Hyperopt menggunakan algoritma {i>tuning
- Jalankan fungsi Hyperopt
fmin()
.fmin()
mengambil item yang Anda tentukan pada langkah-langkah sebelumnya dan mengidentifikasi kumpulan hiperparameter yang meminimalkan fungsi objektif. - Jalankan fungsi Hyperopt
Untuk memulai dengan cepat menggunakan Hyperopt dengan algoritma scikit-learn, lihat:
- Menyejajarkan penyetelan hiperparameter dengan scikit-learn dan MLflow
- Bandingkan tipe model dengan Hyperopt dan MLflow
Untuk detail selengkapnya tentang cara kerja Hyperopt, dan untuk contoh tambahan, lihat:
- Konsep Hyperopt
- Menggunakan algoritma pelatihan terdistribusi dengan Hyperopt
- Praktik terbaik: Penyetelan hiperparameter dengan Hyperopt
Pelacakan MLflow otomatis
Catatan
Pelacakan MLflow otomatis MLlib tidak digunakan lagi dan dinonaktifkan secara default pada kluster yang menjalankan Databricks Runtime 10.4 LTS ML ke atas. Sebagai gantinya, gunakan MLflow PySpark ML autologging dengan memanggil mlflow.pyspark.ml.autolog()
, yang diaktifkan secara default dengan Databricks Autologging.
Untuk menggunakan pelacakan MLflow otomatis MLlib lama di Databricks Runtime 10.4 LTS ML ke atas, aktifkan dengan mengatur konfigurasispark.databricks.mlflow.trackMLlib.enabled true
Spark dan spark.databricks.mlflow.autologging.enabled false
.