Data dalam Azure Machine Learning v1

Artikel
03/05/2024

BERLAKU UNTUK:Ekstensi ml Azure CLI v1

Azure Machine Learning memudahkan Anda tersambung ke data Anda di cloud. Ini menyediakan lapisan abstraksi atas layanan penyimpanan yang mendasar, sehingga Anda dapat mengakses dan bekerja dengan aman dengan data Anda tanpa perlu menulis kode khusus untuk jenis penyimpanan Anda. Azure Pembelajaran Mesin juga menyediakan kemampuan data ini:

Interoperabilitas dengan Panda dan Spark DataFrame
Penerapan versi dan pelacakan silsilah data
Pelabelan data
Pemantauan penyimpangan data

Alur kerja data

Untuk menggunakan data dalam solusi penyimpanan berbasis cloud Anda, kami merekomendasikan alur kerja pengiriman data ini. Alur kerja mengasumsikan bahwa Anda memiliki akun penyimpanan Azure, dan data dalam layanan penyimpanan berbasis cloud Azure.

Membuat datastore Azure Pembelajaran Mesin untuk menyimpan informasi koneksi ke penyimpanan Azure Anda
Dari datastore tersebut, buat himpunan data Azure Pembelajaran Mesin untuk menunjuk ke file atau file tertentu di penyimpanan yang mendasar
Untuk menggunakan himpunan data tersebut dalam eksperimen pembelajaran mesin, Anda dapat
- Pasang himpunan data ke target komputasi eksperimen Anda, untuk pelatihan model
  
  ATAU
- Gunakan himpunan data langsung di solusi Azure Pembelajaran Mesin - misalnya, eksperimen pembelajaran mesin otomatis (ML otomatis), alur pembelajaran mesin, atau perancang Azure Pembelajaran Mesin.
Membuat monitor himpunan data untuk himpunan data output model Anda untuk mendeteksi penyimpangan data
Untuk penyimpangan data yang terdeteksi, perbarui himpunan data input Anda dan latih kembali model Anda dengan sesuai

Cuplikan layar ini memperlihatkan alur kerja yang direkomendasikan:

Menyambungkan ke penyimpanan dengan penyimpanan data

Azure Pembelajaran Mesin datastore menghosting informasi koneksi penyimpanan data Anda dengan aman di Azure, sehingga Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda. Untuk informasi selengkapnya tentang menyambungkan ke akun penyimpanan dan akses data di layanan penyimpanan yang mendasar, kunjungi Mendaftar dan membuat datastore.

Layanan penyimpanan berbasis cloud Azure yang didukung ini dapat mendaftar sebagai penyimpanan data:

Azure Blob Container
Azure File Share
Azure Data Lake
Azure Data Lake Gen2
Database Azure SQL
Azure Database untuk PostgreSQL
Sistem File Databricks
Azure Database untuk MySQL

Tip

Anda dapat membuat datastore dengan autentikasi berbasis kredensial untuk mengakses layanan penyimpanan, misalnya perwakilan layanan atau token tanda tangan akses bersama (SAS). Pengguna dengan akses Pembaca ke ruang kerja dapat mengakses kredensial ini.

Jika ini menjadi perhatian, kunjungi membuat datastore yang menggunakan akses data berbasis identitas untuk informasi selengkapnya tentang koneksi ke layanan penyimpanan.

Mereferensikan data dalam penyimpanan dengan himpunan data

Himpunan data Azure Machine Learning bukanlah salinan data Anda. Pembuatan himpunan data itu sendiri membuat referensi ke data dalam layanan penyimpanannya, bersama dengan salinan metadatanya.

Karena himpunan data jarang dievaluasi, dan data tetap berada di lokasi yang ada, Anda

Tidak dikenai biaya penyimpanan tambahan
Jangan ambil risiko perubahan yang tidak disengaja pada sumber data asli Anda
Meningkatkan kecepatan performa alur kerja ML

Untuk berinteraksi dengan data Anda di penyimpanan, buat himpunan data mengemas data Anda ke dalam objek yang dapat dikonsumsi untuk tugas pembelajaran mesin. Daftarkan himpunan data ke ruang kerja Anda, untuk berbagi dan menggunakannya kembali di berbagai eksperimen tanpa kompleksitas penyerapan data.

Anda dapat membuat himpunan data dari file lokal, url publik, Azure Open Datasets, atau layanan penyimpanan Azure melalui penyimpanan data.

Ada dua jenis himpunan data:

FileDataset adalah satu atau beberapa file di penyimpanan data atau URL publik Anda. Jika data Anda sudah dibersihkan dan siap untuk eksperimen pelatihan, Anda dapat mengunduh atau memasang file yang direferensikan oleh FileDatasets ke target komputasi Anda
TabularDataset mewakili data dalam format tabular, dengan mengurai file atau daftar file yang disediakan. Anda dapat memuat TabularDataset ke Pandas atau Spark DataFrame untuk manipulasi dan pembersihan lebih lanjut. Untuk daftar lengkap format data tempat Anda dapat membuat TabularDatasets, kunjungi kelas TabularDatasetFactory

Sumber daya ini menawarkan informasi selengkapnya tentang kemampuan himpunan data:

Versi dan lacak silsilah data
Memantau himpunan data Anda untuk membantu deteksi penyimpangan data

Bekerja dengan data Anda

Dengan himpunan data, Anda dapat menyelesaikan tugas pembelajaran mesin melalui integrasi yang mulus dengan fitur Azure Pembelajaran Mesin.

Membuat proyek pelabelan data
Melatih model pembelajaran mesin:
Mengakses himpunan data untuk penilaian dengan inferensi batch dalam alur pembelajaran mesin
Menyiapkan monitor himpunan data untuk deteksi penyimpangan data

Memberi label data dengan proyek pelabelan data

Pelabelan data dalam volume besar dalam proyek pembelajaran mesin dapat menjadi sakit kepala. Proyek yang melibatkan komponen visi komputer, seperti klasifikasi gambar atau deteksi objek, sering memerlukan ribuan gambar dan label yang sesuai.

Azure Pembelajaran Mesin menyediakan lokasi pusat untuk membuat, mengelola, dan memantau proyek pelabelan. Proyek pelabelan membantu mengoordinasikan data, label, dan anggota tim, sehingga Anda dapat mengelola tugas pelabelan dengan lebih efisien. Tugas yang saat ini didukung melibatkan klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek menggunakan kotak terikat.

Buat proyek pelabelan gambar dan proyek pelabelan teks, lalu hasilkan himpunan data untuk digunakan dalam eksperimen pembelajaran mesin.

Memantau performa model dengan penyimpangan data

Dalam konteks pembelajaran mesin, penyimpangan data melibatkan perubahan data input model yang menyebabkan penurunan performa model. Ini adalah alasan utama bahwa akurasi model terdegradasi dari waktu ke waktu, dan pemantauan penyimpangan data membantu mendeteksi masalah performa model.

Untuk informasi selengkapnya, kunjungi Membuat monitor himpunan data untuk mempelajari cara mendeteksi dan memperingatkan penyimpangan data pada data baru dalam himpunan data.

Langkah berikutnya

Membuat himpunan data di studio Azure Pembelajaran Mesin atau dengan Python SDK
Mencoba contoh pelatihan himpunan data dengan buku catatan sampel kami