Data dalam Azure Machine Learning v1

BERLAKU UNTUK:Ekstensi ml Azure CLI v1

BERLAKU UNTUK:SDK Python azureml v1

Azure Machine Learning memudahkan Anda tersambung ke data Anda di cloud. Ini menyediakan lapisan abstraksi atas layanan penyimpanan yang mendasar, sehingga Anda dapat mengakses dan bekerja dengan aman dengan data Anda tanpa perlu menulis kode khusus untuk jenis penyimpanan Anda. Azure Pembelajaran Mesin juga menyediakan kemampuan data ini:

  • Interoperabilitas dengan Panda dan Spark DataFrame
  • Penerapan versi dan pelacakan silsilah data
  • Pelabelan data
  • Pemantauan penyimpangan data

Alur kerja data

Untuk menggunakan data dalam solusi penyimpanan berbasis cloud Anda, kami merekomendasikan alur kerja pengiriman data ini. Alur kerja mengasumsikan bahwa Anda memiliki akun penyimpanan Azure, dan data dalam layanan penyimpanan berbasis cloud Azure.

  1. Membuat datastore Azure Pembelajaran Mesin untuk menyimpan informasi koneksi ke penyimpanan Azure Anda

  2. Dari datastore tersebut, buat himpunan data Azure Pembelajaran Mesin untuk menunjuk ke file atau file tertentu di penyimpanan yang mendasar

  3. Untuk menggunakan himpunan data tersebut dalam eksperimen pembelajaran mesin, Anda dapat

    • Pasang himpunan data ke target komputasi eksperimen Anda, untuk pelatihan model

      ATAU

    • Gunakan himpunan data langsung di solusi Azure Pembelajaran Mesin - misalnya, eksperimen pembelajaran mesin otomatis (ML otomatis), alur pembelajaran mesin, atau perancang Azure Pembelajaran Mesin.

  4. Membuat monitor himpunan data untuk himpunan data output model Anda untuk mendeteksi penyimpangan data

  5. Untuk penyimpangan data yang terdeteksi, perbarui himpunan data input Anda dan latih kembali model Anda dengan sesuai

Cuplikan layar ini memperlihatkan alur kerja yang direkomendasikan:

Screenshot showing the Azure Storage Service, which flows into a datastore and then into a dataset.

Menyambungkan ke penyimpanan dengan penyimpanan data

Azure Pembelajaran Mesin datastore menghosting informasi koneksi penyimpanan data Anda dengan aman di Azure, sehingga Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda. Untuk informasi selengkapnya tentang menyambungkan ke akun penyimpanan dan akses data di layanan penyimpanan yang mendasar, kunjungi Mendaftar dan membuat datastore.

Layanan penyimpanan berbasis cloud Azure yang didukung ini dapat mendaftar sebagai penyimpanan data:

  • Azure Blob Container
  • Azure File Share
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Database Azure SQL
  • Azure Database untuk PostgreSQL
  • Sistem File Databricks
  • Azure Database untuk MySQL

Tip

Anda dapat membuat datastore dengan autentikasi berbasis kredensial untuk mengakses layanan penyimpanan, misalnya perwakilan layanan atau token tanda tangan akses bersama (SAS). Pengguna dengan akses Pembaca ke ruang kerja dapat mengakses kredensial ini.

Jika ini menjadi perhatian, kunjungi membuat datastore yang menggunakan akses data berbasis identitas untuk informasi selengkapnya tentang koneksi ke layanan penyimpanan.

Mereferensikan data dalam penyimpanan dengan himpunan data

Himpunan data Azure Machine Learning bukanlah salinan data Anda. Pembuatan himpunan data itu sendiri membuat referensi ke data dalam layanan penyimpanannya, bersama dengan salinan metadatanya.

Karena himpunan data jarang dievaluasi, dan data tetap berada di lokasi yang ada, Anda

  • Tidak dikenai biaya penyimpanan tambahan
  • Jangan ambil risiko perubahan yang tidak disengaja pada sumber data asli Anda
  • Meningkatkan kecepatan performa alur kerja ML

Untuk berinteraksi dengan data Anda di penyimpanan, buat himpunan data mengemas data Anda ke dalam objek yang dapat dikonsumsi untuk tugas pembelajaran mesin. Daftarkan himpunan data ke ruang kerja Anda, untuk berbagi dan menggunakannya kembali di berbagai eksperimen tanpa kompleksitas penyerapan data.

Anda dapat membuat himpunan data dari file lokal, url publik, Azure Open Datasets, atau layanan penyimpanan Azure melalui penyimpanan data.

Ada dua jenis himpunan data:

  • FileDataset adalah satu atau beberapa file di penyimpanan data atau URL publik Anda. Jika data Anda sudah dibersihkan dan siap untuk eksperimen pelatihan, Anda dapat mengunduh atau memasang file yang direferensikan oleh FileDatasets ke target komputasi Anda

  • TabularDataset mewakili data dalam format tabular, dengan mengurai file atau daftar file yang disediakan. Anda dapat memuat TabularDataset ke Pandas atau Spark DataFrame untuk manipulasi dan pembersihan lebih lanjut. Untuk daftar lengkap format data tempat Anda dapat membuat TabularDatasets, kunjungi kelas TabularDatasetFactory

Sumber daya ini menawarkan informasi selengkapnya tentang kemampuan himpunan data:

Bekerja dengan data Anda

Dengan himpunan data, Anda dapat menyelesaikan tugas pembelajaran mesin melalui integrasi yang mulus dengan fitur Azure Pembelajaran Mesin.

Memberi label data dengan proyek pelabelan data

Pelabelan data dalam volume besar dalam proyek pembelajaran mesin dapat menjadi sakit kepala. Proyek yang melibatkan komponen visi komputer, seperti klasifikasi gambar atau deteksi objek, sering memerlukan ribuan gambar dan label yang sesuai.

Azure Pembelajaran Mesin menyediakan lokasi pusat untuk membuat, mengelola, dan memantau proyek pelabelan. Proyek pelabelan membantu mengoordinasikan data, label, dan anggota tim, sehingga Anda dapat mengelola tugas pelabelan dengan lebih efisien. Tugas yang saat ini didukung melibatkan klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek menggunakan kotak terikat.

Buat proyek pelabelan gambar dan proyek pelabelan teks, lalu hasilkan himpunan data untuk digunakan dalam eksperimen pembelajaran mesin.

Memantau performa model dengan penyimpangan data

Dalam konteks pembelajaran mesin, penyimpangan data melibatkan perubahan data input model yang menyebabkan penurunan performa model. Ini adalah alasan utama bahwa akurasi model terdegradasi dari waktu ke waktu, dan pemantauan penyimpangan data membantu mendeteksi masalah performa model.

Untuk informasi selengkapnya, kunjungi Membuat monitor himpunan data untuk mempelajari cara mendeteksi dan memperingatkan penyimpangan data pada data baru dalam himpunan data.

Langkah berikutnya