AI dan Pembelajaran Mesin di Databricks

Artikel ini menjelaskan alat yang disediakan Azure Databricks untuk membantu Anda membangun dan memantau alur kerja AI dan ML. Diagram menunjukkan bagaimana komponen-komponen ini bekerja sama untuk membantu Anda menerapkan proses pengembangan dan penyebaran model Anda.

Diagram pembelajaran mesin: Pengembangan dan penyebaran model pada Databricks

Mengapa menggunakan Databricks untuk pembelajaran mesin dan pembelajaran mendalam?

Dengan Azure Databricks, Anda dapat menerapkan siklus hidup ML penuh pada satu platform dengan tata kelola end-to-end di seluruh alur ML. Azure Databricks menyertakan alat bawaan berikut untuk mendukung alur kerja ML:

  • Unity Catalog untuk tata kelola, penemuan, penerapan versi, dan kontrol akses untuk data, fitur, model, dan fungsi.
  • Pemantauan Lakehouse untuk pemantauan data.
  • Rekayasa dan penyajian fitur.
  • Dukungan untuk siklus hidup model:
    • Databricks AutoML untuk pelatihan model otomatis.
    • MLflow untuk pelacakan pengembangan model.
    • Unity Catalog untuk manajemen model.
    • Model Databricks Melayani untuk penyajian model latensi rendah dengan ketersediaan tinggi. Ini termasuk menyebarkan LLM menggunakan:
      • API Model Foundation yang memungkinkan Anda mengakses dan mengkueri model terbuka state-of-the-art dari titik akhir penyajian.
      • Model eksternal yang memungkinkan Anda mengakses model yang dihosting di luar Databricks.
    • Pemantauan Lakehouse untuk melacak kualitas dan penyimpangan prediksi model.
  • Alur Kerja Databricks untuk alur kerja otomatis dan alur ETL siap produksi.
  • Folder Databricks Git untuk manajemen kode dan integrasi Git.

Pembelajaran mendalam tentang Databricks

Mengonfigurasi infrastruktur untuk aplikasi pembelajaran mendalam bisa sulit.

Databricks Runtime for Pembelajaran Mesin mengurusnya untuk Anda, dengan kluster yang memiliki versi kompatibel bawaan dari pustaka pembelajaran mendalam yang paling umum seperti TensorFlow, PyTorch, dan Keras, dan pustaka pendukung seperti Petastorm, Hyperopt, dan Horovod. Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Ini juga mendukung pustaka seperti Ray untuk menyejajarkan pemrosesan komputasi untuk menskalakan alur kerja ML dan aplikasi AI.

Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Databricks Model Serving memungkinkan pembuatan titik akhir GPU yang dapat diskalakan untuk model pembelajaran mendalam tanpa konfigurasi tambahan.

Untuk aplikasi pembelajaran mesin, Databricks merekomendasikan penggunaan kluster yang menjalankan Databricks Runtime untuk Pembelajaran Mesin. Lihat Membuat kluster menggunakan Databricks Runtime ML.

Untuk memulai pembelajaran mendalam tentang Databricks, lihat:

Model bahasa besar (LLM) dan AI generatif pada Databricks

Databricks Runtime for Pembelajaran Mesin mencakup pustaka seperti Hugging Face Transformers dan LangChain yang memungkinkan Anda mengintegrasikan model yang sudah dilatih sebelumnya atau pustaka sumber terbuka lainnya ke dalam alur kerja Anda. Integrasi Databricks MLflow memudahkan penggunaan layanan pelacakan MLflow dengan alur transformator, model, dan komponen pemrosesan. Selain itu, Anda dapat mengintegrasikan model atau solusi OpenAI dari mitra seperti John Snow Labs di alur kerja Azure Databricks Anda.

Dengan Azure Databricks, Anda dapat menyesuaikan LLM pada data Anda untuk tugas spesifik Anda. Dengan dukungan alat sumber terbuka, seperti Hugging Face dan DeepSpeed, Anda dapat secara efisien mengambil LLM fondasi dan melatihnya dengan data Anda sendiri untuk meningkatkan akurasinya untuk domain dan beban kerja spesifik Anda. Anda kemudian dapat memanfaatkan LLM kustom di aplikasi AI generatif Anda.

Selain itu, Databricks menyediakan API Model Foundation dan model eksternal yang memungkinkan Anda mengakses dan mengkueri model terbuka state-of-the-art dari titik akhir penyajian. Dengan menggunakan API Model Foundation, pengembang dapat dengan cepat dan mudah membangun aplikasi yang memanfaatkan model AI generatif berkualitas tinggi tanpa mempertahankan penyebaran model mereka sendiri.

Untuk pengguna SQL, Databricks menyediakan fungsi AI yang dapat digunakan analis data SQL untuk mengakses model LLM, termasuk dari OpenAI, langsung dalam alur data dan alur kerja mereka. Lihat Fungsi AI di Azure Databricks.

Runtime Databricks untuk Pembelajaran Mesin

Databricks Runtime for Pembelajaran Mesin (Databricks Runtime ML) mengotomatiskan pembuatan kluster dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum. Untuk daftar lengkap pustaka di setiap versi Databricks Runtime ML, lihat catatan rilis.

Untuk mengakses data di Unity Catalog untuk alur kerja pembelajaran mesin, mode akses untuk kluster harus pengguna tunggal (ditetapkan). Kluster bersama tidak kompatibel dengan Databricks Runtime untuk Pembelajaran Mesin. Selain itu, Databricks Runtime ML tidak didukung pada kluster atau kluster TableACLs dengan spark.databricks.pyspark.enableProcessIsolation config diatur ke true.

Membuat kluster menggunakan Databricks Runtime ML

Saat Anda membuat kluster, pilih versi ML Runtime Databricks dari menu drop-down versi runtime Databricks. Baik runtime bahasa umum ML yang dan CPU maupun GUP, keduanya tersedia.

Memilih ML Runtime Databricks

Jika Anda memilih kluster dari menu drop-down di notebook, versi Databricks Runtime muncul di sebelah kanan nama kluster:

Menampilkan versi ML Runtime Databricks

Jika Anda memilih runtime ML dengan dukungan GPU, Anda akan diminta untuk memilih jenis Driver dan jenis Pekerja yang kompatibel. Jenis instans yang tidak kompatibel berwarna abu-abu di menu drop-down. Jenis instans berkemampuan GPU tercantum di bawah label yang dipercepat GPU.

Catatan

Untuk mengakses data di Unity Catalog untuk alur kerja pembelajaran mesin, mode akses untuk kluster harus pengguna tunggal (ditetapkan). Kluster bersama tidak kompatibel dengan Databricks Runtime untuk Pembelajaran Mesin.

Pustaka yang termasuk dalam Runtime Bahasa Umum Databricks ML

Databricks Runtime ML mencakup berbagai pustaka ML populer. Pustaka diperbarui dengan setiap rilis untuk menyertakan fitur dan perbaikan baru.

Databricks telah menetapkan subset pustaka yang didukung sebagai pustaka tingkat atas. Untuk pustaka ini, Databricks menyediakan irama pembaruan yang lebih cepat, memperbarui ke rilis paket terbaru dengan setiap rilis runtime (konflik dependensi yang menghambat). Databricks juga menyediakan dukungan tingkat lanjut, pengujian, dan pengoptimalan yang disematkan untuk pustaka tingkat atas.

Untuk daftar lengkap pustaka tingkat atas dan pustaka lain yang disediakan, lihat catatan rilis untuk Databricks Runtime ML.

Langkah berikutnya

Untuk memulai, lihat:

Untuk alur kerja MLOps yang direkomendasikan di databricks Pembelajaran Mesin, lihat:

Untuk mempelajari tentang fitur Pembelajaran Mesin Databricks utama, lihat: