Penyetelan hiperparameter

Databricks Runtime untuk Pembelajaran Mesin menggabungkan Hyperopt, alat sumber terbuka yang mengotomatiskan proses pemilihan model dan penyetelan hiperparameter.

Penyetelan hyperparameter dengan Ray

Databricks Runtime ML mencakup Ray, kerangka kerja sumber terbuka yang berspesialisasi dalam pemrosesan komputasi paralel untuk menskalakan alur kerja ML dan aplikasi AI. Lihat Menggunakan Ray di Azure Databricks.

Penyetelan hiperparameter dengan Hyperopt

Databricks Runtime ML mencakup Hyperopt, pustaka Python yang memfasilitasi penyetelan hiperparameter terdistribusi dan pemilihan model. Dengan Hyperopt, Anda dapat memindai satu set model Python sambil memvariasikan algoritma dan hiperparameter di seluruh ruang yang Anda tentukan. Hyperopt bekerja dengan algoritma ML terdistribusi seperti Apache Spark MLlib dan Horovod, serta dengan model ML mesin tunggal seperti scikit-learn dan TensorFlow.

Langkah-langkah dasar saat menggunakan Hyperopt adalah:

  1. Tentukan fungsi objektif untuk diminimalkan. Biasanya ini adalah kehilangan pelatihan atau validasi.
  2. Tentukan ruang pencarian hiperparameter. Hyperopt menyediakan ruang pencarian kondisional, yang memungkinkan Anda membandingkan algoritma ML yang berbeda dalam menjalankan yang sama.
  3. Tentukan algoritma pencarian. Hyperopt menggunakan algoritma {i>tuning
  4. Jalankan fungsi Hyperopt fmin(). fmin() mengambil item yang Anda tentukan pada langkah-langkah sebelumnya dan mengidentifikasi kumpulan hiperparameter yang meminimalkan fungsi objektif.

Untuk memulai dengan cepat menggunakan Hyperopt dengan algoritma scikit-learn, lihat:

Untuk detail selengkapnya tentang cara kerja Hyperopt, dan untuk contoh tambahan, lihat:

Pelacakan MLflow otomatis

Catatan

Pelacakan MLflow otomatis MLlib tidak digunakan lagi dan dinonaktifkan secara default pada kluster yang menjalankan Databricks Runtime 10.4 LTS ML ke atas. Sebagai gantinya, gunakan MLflow PySpark ML autologging dengan memanggil mlflow.pyspark.ml.autolog(), yang diaktifkan secara default dengan Databricks Autologging.

Untuk menggunakan pelacakan MLflow otomatis MLlib lama di Databricks Runtime 10.4 LTS ML ke atas, aktifkan dengan mengatur konfigurasispark.databricks.mlflow.trackMLlib.enabled true Spark dan spark.databricks.mlflow.autologging.enabled false.