Bagikan melalui


Jalankan model Azure Pembelajaran Mesin dari Fabric, menggunakan titik akhir batch (pratinjau)

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Dalam artikel ini, Anda mempelajari cara menggunakan azure Pembelajaran Mesin penyebaran batch dari Microsoft Fabric. Meskipun alur kerja menggunakan model yang disebarkan ke titik akhir batch, alur kerja ini juga mendukung penggunaan penyebaran alur batch dari Fabric.

Penting

Fitur ini masih dalam pratinjau umum. Versi pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.

Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Prasyarat

  • Dapatkan langganan Microsoft Fabric. Atau daftar untuk uji coba Microsoft Fabric gratis.
  • Masuk ke Microsoft Fabric.
  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai. Coba versi gratis atau berbayar Azure Machine Learning.
  • Ruang kerja Azure Machine Learning. Jika Anda tidak memilikinya, gunakan langkah-langkah dalam Cara mengelola ruang kerja untuk membuatnya.
    • Pastikan Anda memiliki izin berikut di ruang kerja:
      • Membuat/mengelola titik akhir dan penyebaran batch: Gunakan peran Pemilik, kontributor, atau peran kustom yang Microsoft.MachineLearningServices/workspaces/batchEndpoints/*memungkinkan .
      • Membuat penyebaran ARM di grup sumber daya ruang kerja: Gunakan peran Pemilik, kontributor, atau peran kustom yang memungkinkan Microsoft.Resources/deployments/write dalam grup sumber daya tempat ruang kerja disebarkan.
  • Model yang disebarkan ke titik akhir batch. Jika Anda tidak memilikinya, gunakan langkah-langkah dalam Menyebarkan model untuk penilaian di titik akhir batch untuk membuatnya.
  • Unduh himpunan data sampel heart-unlabeled.csv untuk digunakan untuk penilaian.

Arsitektur

Azure Pembelajaran Mesin tidak dapat langsung mengakses data yang disimpan di OneLake Fabric. Namun, Anda dapat menggunakan kemampuan OneLake untuk membuat pintasan dalam Lakehouse untuk membaca dan menulis data yang disimpan di Azure Data Lake Gen2. Karena Azure Pembelajaran Mesin mendukung penyimpanan Azure Data Lake Gen2, penyiapan ini memungkinkan Anda menggunakan Fabric dan Azure Pembelajaran Mesin bersama-sama. Arsitektur data adalah sebagai berikut:

A diagram showing how Azure Storage accounts are used to connect Fabric with Azure Machine Learning.

Mengonfigurasi akses data

Untuk memungkinkan Fabric dan Azure Pembelajaran Mesin membaca dan menulis data yang sama tanpa harus menyalinnya, Anda dapat memanfaatkan pintasan OneLake dan datastore Azure Pembelajaran Mesin. Dengan mengarahkan pintasan OneLake dan datastore ke akun penyimpanan yang sama, Anda dapat memastikan bahwa Fabric dan Azure Pembelajaran Mesin membaca dari dan menulis ke data dasar yang sama.

Di bagian ini, Anda membuat atau mengidentifikasi akun penyimpanan yang akan digunakan untuk menyimpan informasi yang akan digunakan titik akhir batch dan pengguna Fabric akan melihat di OneLake. Fabric hanya mendukung akun penyimpanan dengan nama hierarki diaktifkan, seperti Azure Data Lake Gen2.

Membuat pintasan OneLake ke akun penyimpanan

  1. Buka pengalaman Rekayasa Data Synapse di Fabric.

  2. Dari panel sisi kiri, pilih ruang kerja Fabric Anda untuk membukanya.

  3. Buka lakehouse yang akan Anda gunakan untuk mengonfigurasi koneksi. Jika Anda belum memiliki lakehouse, kunjungi pengalaman Rekayasa Data untuk membuat lakehouse. Dalam contoh ini, Anda menggunakan lakehouse bernama tepercaya.

  4. Di bilah navigasi sisi kiri, buka opsi lainnya untuk File, lalu pilih Pintasan baru untuk memunculkan wizard.

    A screenshot showing how to create a new shortcut in a lakehouse.

  5. Pilih opsi Azure Data Lake Storage Gen2 .

    A screenshot showing how to create an Azure Data Lake Storage Gen2 shortcut.

  6. Di bagian pengaturan Koneksi ion, tempelkan URL yang terkait dengan akun penyimpanan Azure Data Lake Gen2.

    A screenshot showing how to configure the URL of the shortcut.

  7. Di bagian kredensial Koneksi ion:

    1. Untuk Koneksi ion, pilih Buat koneksi baru.
    2. Untuk nama Koneksi ion, pertahankan nilai default yang diisi.
    3. Untuk Jenis autentikasi, pilih Akun organisasi untuk menggunakan kredensial pengguna yang terhubung melalui OAuth 2.0.
    4. Pilih Masuk untuk masuk.
  8. Pilih Selanjutnya.

  9. Konfigurasikan jalur ke pintasan, relatif terhadap akun penyimpanan, jika diperlukan. Gunakan pengaturan ini untuk mengonfigurasi folder yang akan diacu pintasan.

  10. Konfigurasikan Nama pintasan. Nama ini akan menjadi jalan di dalam lakehouse. Dalam contoh ini, beri nama himpunan data pintasan.

  11. Simpan perubahan.

Membuat datastore yang menunjuk ke akun penyimpanan

  1. Buka studio Azure Pembelajaran Mesin.

  2. Buka ruang kerja Azure Machine Learning.

  3. Buka bagian Data .

  4. Pilih tab Datastore .

  5. Pilih Buat.

  6. Konfigurasikan datastore sebagai berikut:

    1. Untuk Nama datastore, masukkan trusted_blob.

    2. Untuk Jenis datastore pilih Azure Blob Storage.

      Tip

      Mengapa Anda harus mengonfigurasi Azure Blob Storage alih-alih Azure Data Lake Gen2? Titik akhir batch hanya dapat menulis prediksi ke akun Blob Storage. Namun, setiap akun penyimpanan Azure Data Lake Gen2 juga merupakan akun penyimpanan blob; oleh karena itu, mereka dapat digunakan secara bergantian.

    3. Pilih akun penyimpanan dari wizard, menggunakan ID Langganan, akun Penyimpanan, dan kontainer Blob (sistem file).

      A screenshot showing how to configure the Azure Machine Learning data store.

    4. Pilih Buat.

  7. Pastikan bahwa komputasi tempat titik akhir batch berjalan memiliki izin untuk memasang data di akun penyimpanan ini. Meskipun akses masih diberikan oleh identitas yang memanggil titik akhir, komputasi tempat titik akhir batch berjalan harus memiliki izin untuk memasang akun penyimpanan yang Anda sediakan. Untuk informasi selengkapnya, lihat Mengakses layanan penyimpanan.

Mengunggah himpunan data sampel

Unggah beberapa data sampel untuk titik akhir yang akan digunakan sebagai input:

  1. Buka ruang kerja Fabric Anda.

  2. Pilih lakehouse tempat Anda membuat pintasan.

  3. Buka pintasan himpunan data.

  4. Buat folder untuk menyimpan himpunan data sampel yang ingin Anda nilai. Beri nama folder uci-heart-unlabeled.

  5. Gunakan opsi Dapatkan data dan pilih Unggah file untuk mengunggah himpunan data sampel heart-unlabeled.csv.

    A screenshot showing how to upload data to an existing folder in OneLake.

  6. Unggah himpunan data sampel.

    A screenshot showing how to upload a file to OneLake.

  7. File sampel siap dikonsumsi. Perhatikan jalur ke lokasi tempat Anda menyimpannya.

Membuat Fabric untuk membuat alur inferensi batch

Di bagian ini, Anda membuat alur inferensi Fabric-to-batch di ruang kerja Fabric yang ada dan memanggil titik akhir batch.

  1. Kembali ke pengalaman Rekayasa Data (jika Anda sudah menavigasi jauh darinya), dengan menggunakan ikon pemilih pengalaman di sudut kiri bawah halaman beranda Anda.

  2. Buka ruang kerja Fabric Anda.

  3. Dari bagian Baru dari beranda, pilih Alur data.

  4. Beri nama alur dan pilih Buat.

    A screenshot showing where to select the data pipeline option.

  5. Pilih tab Aktivitas dari toolbar di kanvas perancang.

  6. Pilih opsi lainnya di akhir tab dan pilih Azure Pembelajaran Mesin.

    A screenshot showing how to add the Azure Machine Learning activity to a pipeline.

  7. Buka tab Pengaturan dan konfigurasikan aktivitas sebagai berikut:

    1. Pilih Baru di samping koneksi Azure Pembelajaran Mesin untuk membuat koneksi baru ke ruang kerja Azure Pembelajaran Mesin yang berisi penyebaran Anda.

      A screenshot of the configuration section of the activity showing how to create a new connection.

    2. Di bagian pengaturan Koneksi ion wizard pembuatan, tentukan nilai ID langganan, Nama grup sumber daya, dan Nama ruang kerja, tempat titik akhir Anda disebarkan.

      A screenshot showing examples of the values for subscription ID, resource group name, and workspace name.

    3. Di bagian kredensial Koneksi ion, pilih Akun organisasi sebagai nilai untuk jenis Autentikasi untuk koneksi Anda. Akun organisasi menggunakan kredensial pengguna yang tersambung. Atau, Anda dapat menggunakan Perwakilan layanan. Dalam pengaturan produksi, kami sarankan Anda menggunakan perwakilan Layanan. Terlepas dari jenis autentikasi, pastikan bahwa identitas yang terkait dengan koneksi memiliki hak untuk memanggil titik akhir batch yang Anda sebarkan.

      A screenshot showing how to configure the authentication mechanism in the connection.

    4. Simpan koneksi. Setelah koneksi dipilih, Fabric secara otomatis mengisi titik akhir batch yang tersedia di ruang kerja yang dipilih.

  8. Untuk titik akhir Batch, pilih titik akhir batch yang ingin Anda panggil. Dalam contoh ini, pilih pengklasifikasi hati-....

    A screenshot showing how to select an endpoint once a connection is configured.

    Bagian penyebaran Batch secara otomatis diisi dengan penyebaran yang tersedia di bawah titik akhir.

  9. Untuk penyebaran Batch, pilih penyebaran tertentu dari daftar, jika diperlukan. Jika Anda tidak memilih penyebaran, Fabric memanggil penyebaran Default di bawah titik akhir, memungkinkan pembuat titik akhir batch untuk memutuskan penyebaran mana yang dipanggil. Dalam sebagian besar skenario, Anda ingin mempertahankan perilaku default ini.

    A screenshot showing how to configure the endpoint to use the default deployment.

Mengonfigurasi input dan output untuk titik akhir batch

Di bagian ini, Anda mengonfigurasi input dan output dari titik akhir batch. Input ke titik akhir batch menyediakan data dan parameter yang diperlukan untuk menjalankan proses. Alur batch Azure Pembelajaran Mesin di Fabric mendukung penyebaran model dan penyebaran alur. Jumlah dan jenis input yang Anda berikan bergantung pada jenis penyebaran. Dalam contoh ini, Anda menggunakan penyebaran model yang memerlukan tepat satu input dan menghasilkan satu output.

Untuk informasi selengkapnya tentang input dan output titik akhir batch, lihat Memahami input dan output di Titik Akhir Batch.

Mengonfigurasi bagian input

Konfigurasikan bagian Input pekerjaan sebagai berikut:

  1. Perluas bagian Input pekerjaan .

  2. Pilih Baru untuk menambahkan input baru ke titik akhir Anda.

  3. Beri nama input input_data. Karena Anda menggunakan penyebaran model, Anda dapat menggunakan nama apa pun. Namun, untuk penyebaran alur, Anda perlu menunjukkan nama input yang tepat yang diharapkan model Anda.

  4. Pilih menu dropdown di samping input yang baru saja Anda tambahkan untuk membuka properti input (bidang nama dan nilai).

  5. Masukkan JobInputType di bidang Nama untuk menunjukkan jenis input yang Anda buat.

  6. Masukkan UriFolder di bidang Nilai untuk menunjukkan bahwa input adalah jalur folder. Nilai lain yang didukung untuk bidang ini adalah UriFile (jalur file) atau Literal (nilai harfiah apa pun seperti string atau bilangan bulat). Anda perlu menggunakan jenis yang tepat yang diharapkan penyebaran Anda.

  7. Pilih tanda plus di samping properti untuk menambahkan properti lain untuk input ini.

  8. Masukkan Uri di bidang Nama untuk menunjukkan jalur ke data.

  9. Masukkan azureml://datastores/trusted_blob/datasets/uci-heart-unlabeled, jalur untuk menemukan data, di bidang Nilai . Di sini, Anda menggunakan jalur yang mengarah ke akun penyimpanan yang ditautkan ke OneLake di Fabric dan ke Azure Pembelajaran Mesin. azureml://datastores/trusted_blob/datasets/uci-heart-unlabeled adalah jalur ke file CSV dengan data input yang diharapkan untuk model yang disebarkan ke titik akhir batch. Anda juga dapat menggunakan jalur langsung ke akun penyimpanan, seperti https://<storage-account>.dfs.azure.com.

    A screenshot showing how to configure inputs in the endpoint.

    Tip

    Jika input Anda berjenis Literal, ganti properti Uri dengan 'Nilai''.

Jika titik akhir Anda memerlukan lebih banyak input, ulangi langkah-langkah sebelumnya untuk masing-masing input tersebut. Dalam contoh ini, penyebaran model memerlukan satu input.

Mengonfigurasi bagian output

Konfigurasikan bagian Output pekerjaan sebagai berikut:

  1. Perluas bagian Output pekerjaan.

  2. Pilih Baru untuk menambahkan output baru ke titik akhir Anda.

  3. Beri nama output output_data. Karena Anda menggunakan penyebaran model, Anda dapat menggunakan nama apa pun. Namun, untuk penyebaran alur, Anda perlu menunjukkan nama output yang tepat yang dihasilkan model Anda.

  4. Pilih menu dropdown di samping output yang baru saja Anda tambahkan untuk membuka properti output (bidang nama dan nilai).

  5. Masukkan JobOutputType di bidang Nama untuk menunjukkan jenis output yang Anda buat.

  6. Masukkan UriFile di bidang Nilai untuk menunjukkan bahwa output adalah jalur file. Nilai lain yang didukung untuk bidang ini adalah UriFolder (jalur folder). Tidak seperti bagian input pekerjaan, Literal (nilai harfiah apa pun seperti string atau bilangan bulat) tidak didukung sebagai output.

  7. Pilih tanda plus di samping properti untuk menambahkan properti lain untuk output ini.

  8. Masukkan Uri di bidang Nama untuk menunjukkan jalur ke data.

  9. Masukkan @concat(@concat('azureml://datastores/trusted_blob/paths/endpoints', pipeline().RunId, 'predictions.csv'), jalur ke tempat output harus ditempatkan, di bidang Nilai . Titik akhir azure Pembelajaran Mesin batch hanya mendukung penggunaan jalur penyimpanan data sebagai output. Karena output harus unik untuk menghindari konflik, Anda telah menggunakan ekspresi dinamis, @concat(@concat('azureml://datastores/trusted_blob/paths/endpoints', pipeline().RunId, 'predictions.csv'), untuk membangun jalur.

    A screenshot showing how to configure outputs in the endpoint

Jika titik akhir Anda mengembalikan lebih banyak output, ulangi langkah-langkah sebelumnya untuk masing-masing output tersebut. Dalam contoh ini, penyebaran model menghasilkan tepat satu output.

(Opsional) Mengonfigurasi pengaturan pekerjaan

Anda juga dapat mengonfigurasi pengaturan Pekerjaan dengan menambahkan properti berikut:

Untuk penyebaran model:

Pengaturan Deskripsi
MiniBatchSize Ukuran batch.
ComputeInstanceCount Jumlah instans komputasi yang akan ditanyakan dari penyebaran.

Untuk penyebaran alur:

Pengaturan Deskripsi
ContinueOnStepFailure Menunjukkan apakah alur harus berhenti memproses simpul setelah kegagalan.
DefaultDatastore Menunjukkan penyimpanan data default yang akan digunakan untuk output.
ForceRun Menunjukkan apakah alur harus memaksa semua komponen untuk berjalan bahkan jika output dapat disimpulkan dari eksekusi sebelumnya.

Setelah dikonfigurasi, Anda dapat menguji alur.