Tutorial: Melatih model pembelajaran mesin tanpa kode (tidak digunakan lagi)

Anda dapat memperkaya data Anda dalam tabel Spark dengan model pembelajaran mesin baru yang Anda latih dengan menggunakan pembelajaran mesin otomatis. Di Azure Synapse Analytics, Anda dapat memilih tabel Spark di ruang kerja untuk digunakan sebagai himpunan data pelatihan untuk membangun model pembelajaran mesin, dan Anda dapat melakukan ini dalam pengalaman bebas kode.

Dalam tutorial ini, Anda belajar cara melatih model pembelajaran mesin dengan menggunakan pengalaman bebas kode di Synapse Studio. Synapse Studio adalah fitur dari Azure Synapse Analytics.

Anda akan menggunakan pembelajaran mesin otomatis di Azure Machine Learning, alih-alih mengkode pengalaman secara manual. Jenis model yang Anda latih tergantung pada masalah yang ingin Anda pecahkan. Untuk tutorial ini, Anda akan menggunakan model regresi untuk memprediksi tarif taksi dari himpunan data taksi New York City.

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Peringatan

  • Mulai 29 September 2023, Azure Synapse akan menghentikan dukungan resmi untuk Runtime Spark 2.4. Pasca 29 September 2023, kami tidak akan membahas tiket dukungan apa pun yang terkait dengan Spark 2.4. Tidak akan ada alur rilis yang diberlakukan untuk perbaikan bug atau keamanan untuk Spark 2.4. Memanfaatkan Spark 2.4 pasca tanggal cutoff dukungan dilakukan dengan risiko seseorang sendiri. Kami sangat mencegah penggunaannya yang berkelanjutan karena potensi masalah keamanan dan fungsionalitas.
  • Sebagai bagian dari proses penghentian untuk Apache Spark 2.4, kami ingin memberi tahu Anda bahwa AutoML di Azure Synapse Analytics juga tidak akan digunakan lagi. Ini termasuk antarmuka kode rendah dan API yang digunakan untuk membuat uji coba AutoML melalui kode.
  • Harap dicatat bahwa fungsionalitas AutoML tersedia secara eksklusif melalui runtime Spark 2.4.
  • Untuk pelanggan yang ingin terus memanfaatkan kemampuan AutoML, sebaiknya simpan data Anda ke akun Azure Data Lake Storage Gen2 (ADLSg2) Anda. Dari sana, Anda dapat mengakses pengalaman AutoML dengan lancar melalui Azure Pembelajaran Mesin (AzureML). Informasi lebih lanjut mengenai solusi ini tersedia di sini.

Prasyarat

Masuk ke portal Microsoft Azure.

Masuk ke portal Azure.

Membuat tabel Spark untuk himpunan data pelatihan

Anda memerlukan tabel Spark untuk tutorial ini. Buku catatan berikut ini membuatnya:

  1. Unduh buku catatan Create-Spark-Table-NYCTaxi- Data.ipynb.

  2. Impor buku catatan ke Synapse Studio.

    Cuplikan layar Azure Synapse Analytics, dengan opsi Impor disorot.

  3. Pilih kumpulan Spark yang ingin Anda gunakan, lalu pilih Jalankan semua. Langkah ini mendapatkan data taksi New York dari himpunan data terbuka dan menyimpan data ke database Spark default Anda.

    Cuplikan layar Azure Synapse Analytics, dengan Menjalankan semua dan Memicu database disorot.

  4. Setelah buku catatan selesai, Anda akan melihat tabel Spark baru di bawah database Spark default. Dari Data, cari tabel bernama nyc_taxi.

    Cuplikan layar tab Data Analitik Azure Synapse, dengan tabel baru disorot.

Membuka wizard pembelajaran mesin otomatis

Untuk membuka wizard, klik kanan tabel Spark yang Anda buat di langkah sebelumnya. Pilih Azure Machine Learning>Melatih model baru.

Cuplikan layar tabel Spark, dengan Azure Machine Learning dan Melatih model baru disorot.

Pilih jenis model

Pilih jenis model pembelajaran mesin untuk eksperimen, berdasarkan pertanyaan yang ingin Anda jawab. Karena nilai yang Anda coba untuk prediksi bersifat numerik (tarif taxi), pilih Regresi di sini. Lalu Pilih Lanjutkan.

Cuplikan layar Melatih model baru, dengan Regresi disorot.

Konfigurasikan eksperimen

  1. Berikan detail konfigurasi untuk membuat eksperimen pembelajaran mesin otomatis yang dijalankan di Azure Machine Learning. Eksekusi alur ini melatih beberapa model. Model terbaik dari eksekusi yang sukses terdaftar di registri model Azure Machine Learning.

    Cuplikan layar spesifikasi konfigurasi untuk melatih model pembelajaran mesin.

    • Ruang kerja Azure Machine Learning:Ruang kerja Azure Machine Learning diperlukan untuk membuat eksperimen pembelajaran mesin otomatis yang dijalankan. Anda juga perlu menautkan ruang kerja Azure Synapse Analytics dengan ruang kerja Azure Machine Learning dengan menggunakan layanan tertaut. Setelah memenuhi semua prasyarat, Anda dapat menentukan ruang kerja Azure Machine Learning yang ingin Anda gunakan untuk eksekusi otomatis ini.

    • Nama eksperimen: Tentukan nama eksperimen. Saat Anda menjalankan pembelajaran mesin otomatis, Anda memberikan nama eksperimen. Informasi untuk eksekusi disimpan di bawah eksperimen tersebut di ruang kerja Azure Machine Learning. Pengalaman ini menciptakan eksperimen baru secara default dan menghasilkan nama yang diusulkan, tetapi Anda juga dapat memberikan nama eksperimen yang ada.

    • Nama model terbaik : Tentukan nama model terbaik dari menjalankan otomatis. Model terbaik diberikan nama ini dan disimpan dalam registri model Azure Machine Learning secara otomatis setelah ini berjalan. Eksekusi mesin otomatis menciptakan banyak model pembelajaran mesin. Berdasarkan metrik utama yang Anda pilih di langkah selanjutnya, model tersebut dapat dibandingkan dan model terbaik dapat dipilih.

    • Kolom target: Model akan dilatih untuk memprediksi hal ini. Pilih kolom dalam himpunan data yang berisi data yang ingin Anda prediksi. Dalam tutorial ini, pilih kolom numerik fareAmount sebagai kolom target.

    • Kolam spark:Tentukan kumpulan Spark yang ingin Anda gunakan untuk eksekusi eksperimen otomatis. Perhitungan dijalankan pada kumpulan yang Anda tentukan.

    • Detail konfigurasi spark: Selain kumpulan Spark, Anda memiliki opsi untuk memberikan detail konfigurasi sesi.

  2. Pilih Lanjutkan.

Konfigurasikan model

Karena Anda memilih Regresi sebagai jenis model Anda di bagian sebelumnya, konfigurasi berikut akan tersedia (jenis model Klasifikasi juga menyediakan konfigurasi berikut):

  • Metrik utama: Masukkan metrik yang mengukur seberapa baik model tersebut. Anda menggunakan metrik ini untuk membandingkan berbagai model yang dibuat dalam eksekusi otomatis dan menentukan model mana yang berkinerja terbaik.

  • Waktu kerja pelatihan (jam kerja): Tentukan jumlah waktu maksimum, dalam jam kerja, agar eksperimen dapat berjalan dan melatih model. Perhatikan bahwa Anda juga dapat memberikan nilai kurang dari 1 (misalnya, 0,5).

  • Iterasi serentak maks:Pilih jumlah maksimum iterasi yang berjalan secara paralel.

  • Kompatibilitas model ONNX:Jika Anda mengaktifkan opsi ini, model yang dilatih oleh pembelajaran mesin otomatis dikonversi ke format ONNX. Ini sangat relevan jika Anda ingin menggunakan model untuk mencetak gol di kumpulan Azure Synapse Analytics SQL.

Semua pengaturan ini memiliki nilai default yang dapat Anda kustomisasi.

Cuplikan layar konfigurasi tambahan untuk mengonfigurasi model regresi.

Jalankan eksekusi

Setelah semua konfigurasi yang diperlukan selesai, Anda dapat memulai eksekusi otomatis Anda. Anda dapat memilih untuk langsung membuat eksekusi dengan memilih Buat eksekusi - tindakan ini akan memulai eksekusi tanpa kode. Atau, jika lebih memilih kode, Anda dapat memilih Buka di buku catatan - tindakan ini akan membuka buku catatan yang berisi kode yang membuat eksekusi, sehingga Anda dapat melihat kode dan mulai menjalankan eksekusi sendiri.

Cuplikan layar opsi 'buat eksekusi' atau 'buka di buku catatan'.

Catatan

Jika Anda memilih perkiraan Time series sebagai jenis model di bagian sebelumnya, Anda harus membuat konfigurasi tambahan. Prakiraan juga tidak mendukung kompatibilitas model ONNX.

Membuat eksekusi secara langsung

Untuk langsung memulai eksekusi pembelajaran mesin otomatis, pilih Buat Eksekusi. Anda melihat pemberitahuan yang mengindikasikan bahwa eksekusi dimulai. Kemudian Anda melihat pemberitahuan lain yang menunjukkan keberhasilan. Anda juga dapat memeriksa status di Azure Machine Learning dengan memilih tautan di pemberitahuan.

Cuplikan layar pemberitahuan yang berhasil.

Membuat eksekusi dengan buku catatan

Untuk membuat buku catatan, pilih Buka Di Buku Catatan. Ini memberi Anda kesempatan untuk menambahkan pengaturan atau mengubah kode untuk eksekusi pembelajaran mesin otomatis Anda. Saat Anda siap menjalankan kode, pilih Jalankan semua.

Cuplikan layar buku catatan, dengan Jalankan semua yang disorot.

Pantau eksekusi

Setelah anda berhasil mengirimkan eksekusi, anda akan melihat tautan ke eksperimen yang dijalankan di ruang kerja Azure Machine Learning di keluaran buku catatan. Pilih tautan untuk memantau proses otomatis Anda di Azure Machine Learning.

Cuplikan layar Azure Synapse Analytics dengan tautan disorot.

Langkah berikutnya