Menyambungkan ke data dengan studio Pembelajaran Mesin Microsoft Azure

Dalam artikel ini, pelajari cara mengakses data Anda dengan studio Pembelajaran Mesin Microsoft Azure. Sambungkan ke data Anda di layanan penyimpanan di Azure dengan datastore Pembelajaran Mesin Microsoft Azure, lalu ke paketkan data tersebut untuk tugas di alur kerja Pembelajaran Mesin Anda dengan himpunan data Pembelajaran Mesin Microsoft Azure.

Tabel berikut menentukan dan meringkas manfaat datastore dan himpunan data.

Objek Deskripsi Keuntungan
Datastore Sambungkan dengan aman ke layanan penyimpanan Anda di Azure, dengan menyimpan informasi koneksi Anda, seperti ID langganan dan otorisasi token di Key Vault yang terkait dengan ruang kerja Karena informasi Anda disimpan dengan aman, Anda

  • Jangan membahayakan info masuk autentikasi atau sumber data asli.
  • Tidak perlu lagi mengkode informasi secara permanen dalam skrip Anda.
  • Himpunan data Dengan membuat kumpulan data, Anda membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Dengan himpunan data, Anda dapat,

  • Mengakses data selama pelatihan model.
  • Bagikan data dan berkolaborasi dengan pengguna lain.
  • Gunakan pustaka sumber terbuka, seperti panda, untuk eksplorasi data.
  • Karena himpunan data dievaluasi dengan malas, dan data tetap berada di lokasi yang ada, Anda

  • Menyimpan satu salinan data di penyimpanan Anda.
  • Tidak dikenakan biaya penyimpanan tambahan
  • Tidak berisiko mengubah sumber data asli Anda secara tidak sengaja.
  • Tingkatkan kecepatan performa alur kerja Pembelajaran Mesin.
  • Untuk memahami tempat yang sesuai bagi penyimpanan data dan himpunan data di alur kerja akses data keseluruhan pada Azure Machine Learning, lihat artikel Mengakses data dengan aman.

    Untuk pengalaman pertama terkait kode, lihat artikel berikut ini untuk menggunakan Pembelajaran Mesin Microsoft Azure Python SDK untuk:

    Prasyarat

    Membuat datastore

    Anda dapat membuat datastore dari solusi penyimpanan Azure ini. Untuk solusi penyimpanan yang tidak didukung, dan untuk menghemat biaya keluar data selama eksperimen Pembelajaran Mesin, Anda harus memindahkan data Anda ke solusi penyimpanan Azure yang didukung. Pelajari selengkapnya tentang datastore.

    Anda dapat membuat penyimpanan data dengan akses berbasis info masuk atau akses berbasis identitas.

    Buat datastore baru dalam beberapa langkah dengan studio Pembelajaran Mesin Microsoft Azure.

    Penting

    Jika akun penyimpanan data Anda berada dalam jaringan virtual, langkah-langkah konfigurasi tambahan diperlukan untuk memastikan studio memiliki akses ke data Anda. Lihat Isolasi jaringan & privasi untuk memastikan langkah konfigurasi yang sesuai telah diterapkan.

    1. Masuk ke Studio Azure Machine Learning.
    2. Pilih Data di panel kiri di bawah Aset.
    3. Di bagian atas, pilih Penyimpanan data.
    4. Pilih +Buat.
    5. Lengkapi formulir untuk membuat dan mendaftarkan datastore baru. Formulir diperbarui dengan cerdas berdasarkan pilihan Anda untuk jenis penyimpanan Azure dan jenis autentikasi. Lihat bagian akses penyimpanan dan izin untuk memahami tempat menemukan kredensial autentikasi yang Anda perlukan untuk mengisi formulir ini.

    Contoh berikut menunjukkan seperti apa formulir saat Anda membuat datastore blob Azure:

    Form for a new datastore

    Membuat aset data

    Setelah Anda membuat datastore, buat himpunan data untuk berinteraksi dengan data Anda. Himpunan data mengemas data Anda ke dalam objek habis pakai yang dievaluasi dengan malas untuk tugas pembelajaran mesin, seperti pelatihan. Pelajari selengkapnya tentang himpunan data.

    Ada dua jenis himpunan data, FileDataset dan TabularDataset. FileDataset membuat referensi ke satu atau beberapa file atau URL publik. Sedangkan, TabularDatasets mewakili data Anda dalam format tabular. Anda dapat membuat TabularDatasets dari file .csv, .tsv, .parquet, .jsonl, dan dari hasil kueri SQL.

    Langkah-langkah berikut menjelaskan cara membuat himpunan data di azure Pembelajaran Mesin studio.

    Catatan

    Himpunan data yang dibuat melalui studio Azure Machine Learning secara otomatis didaftarkan ke ruang kerja.

    1. Menavigasi ke studio Azure Pembelajaran Mesin

    2. Di bawah Aset di navigasi kiri, pilih Data. Pada tab Aset data, pilih Buat This screenshot highlights Create in the Data assets tab.

    3. Beri nama aset data Anda dan deskripsi opsional. Kemudian, di bawah Jenis, pilih salah satu jenis Himpunan Data, baik File atau Tabular. This screenshot shows set the name, description, and type of the data asset.

    4. Anda memiliki beberapa opsi untuk sumber data Anda. Jika data Anda sudah disimpan di Azure, pilih "Dari penyimpanan Azure". Jika Anda ingin mengunggah data dari drive lokal, pilih "Dari file lokal". Jika data Anda disimpan di lokasi web publik, pilih "Dari file web". Anda juga dapat membuat aset data dari database SQL, atau dari Azure Open Datasets.

    5. Untuk langkah pemilihan file, pilih di mana Anda ingin data Anda disimpan di Azure, dan file data apa yang ingin Anda gunakan.

      1. Aktifkan lewati validasi jika data Anda berada dalam jaringan virtual. Pelajari selengkapnya tentang isolasi dan privasi jaringan virtual.
    6. Ikuti langkah-langkah untuk mengatur pengaturan penguraian data dan skema untuk aset data Anda. Pengaturan akan diisi sebelumnya berdasarkan jenis file dan Anda dapat mengonfigurasi pengaturan anda lebih lanjut sebelum membuat aset data.

    7. Setelah Anda mencapai langkah Tinjau, klik Buat di halaman terakhir

    Pratinjau dan profil data

    Setelah membuat himpunan data, verifikasi bahwa Anda dapat melihat pratinjau dan profil di studio dengan langkah-langkah berikut:

    1. Masuk ke Studio Pembelajaran Mesin Microsoft Azure
    2. Di bawah Aset di navigasi kiri, pilih Data. Screenshot highlights Create in the Data assets tab.
    3. Pilih nama himpunan data yang ingin Anda tampilkan.
    4. Pilih tab Jelajahi.
    5. Pilih tab Pratinjau . Screenshot shows a preview of a dataset.
    6. Pilih tab Profil . Screenshot shows dataset column metadata in the Profile tab.

    Anda bisa mendapatkan berbagai statistik ringkasan di seluruh himpunan data Anda untuk memverifikasi apakah himpunan data Anda siap untuk Pembelajaran Mesin. Untuk kolom nonnumerik, kolom hanya menyertakan statistik dasar seperti minimum, maksimum, dan jumlah kesalahan. Untuk kolom numerik, Anda juga dapat meninjau momen statistik dan perkiraan kuantitasinya.

    Secara khusus, profil data himpunan data Pembelajaran Mesin Microsoft Azure meliputi:

    Catatan

    Entri kosong muncul untuk fitur dengan jenis yang tidak relevan.

    Statistik Deskripsi
    Fitur Nama kolom yang sedang diringkas.
    Profil Visualisasi sejajar berdasarkan jenis yang disimpulkan. Misalnya, string, boolean, dan tanggal akan memiliki jumlah nilai, sementara desimal (numerik) memiliki perkiraan histogram. Ini memungkinkan Anda untuk mendapatkan pemahaman yang cepat tentang distribusi data.
    Distribusi jenis Jumlah nilai dalam baris dari jenis dalam kolom. Null adalah jenisnya sendiri, sehingga visualisasi ini berguna untuk mendeteksi nilai yang ganjil atau hilang.
    Jenis Jenis kolom yang disimpulkan. Nilai yang mungkin termasuk: string, boolean, tanggal, dan desimal.
    Min Nilai minimum kolom. Entri kosong muncul untuk fitur yang jenisnya tidak memiliki urutan yang melekat (seperti, boolean).
    Maks Nilai maksimum kolom.
    Hitung Jumlah total entri yang hilang dan tidak hilang dalam kolom.
    Jumlah yang tidak hilang Jumlah entri dalam kolom yang tidak hilang. Kesalahan dan string kosong diperlakukan sebagai nilai, sehingga tidak akan berkontribusi pada "jumlah yang tidak hilang".
    Kuantil Perkiraan nilai pada setiap kuantil untuk memberikan nuansa distribusi data.
    Rata-rata Nilai rata-rata aritmetika dari kolom.
    Simpangan baku Mengukur jumlah dispersi atau variasi data kolom ini.
    Varian Mengukur seberapa jauh penyebaran data kolom ini dari nilai rata-ratanya.
    Kemiringan Mengukur seberapa berbeda data kolom ini dari distribusi normal.
    Kurtosis Mengukur seberapa mengekor data kolom ini dibandingkan dengan distribusi normal.

    Akses dan izin penyimpanan

    Untuk memastikan Anda tersambung dengan aman ke layanan penyimpanan Azure Anda, Azure Machine Learning mengharuskan Anda memiliki izin untuk mengakses penyimpanan data terkait. Akses ini bergantung pada kredensial autentikasi yang digunakan untuk mendaftarkan datastore.

    Jaringan virtual

    Jika akun penyimpanan data Anda berada dalam jaringan virtual, langkah konfigurasi tambahan diperlukan untuk memastikan Azure Machine Learning memiliki akses ke data Anda. Lihat Menggunakan studio Azure Machine Learning dalam jaringan virtual untuk memastikan langkah-langkah konfigurasi yang sesuai telah diterapkan saat Anda membuat dan mendaftarkan penyimpanan data Anda.

    Validasi akses

    Peringatan

    Akses antar penyewa ke akun penyimpanan tidak didukung. Jika akses lintas penyewa diperlukan untuk skenario Anda, silakan hubungi alias tim Dukungan Data Azure Pembelajaran Mesin di amldatasupport@microsoft.com untuk bantuan dengan solusi kode kustom.

    Sebagai bagian dari proses pembuatan dan pendaftaran datastore awal, Pembelajaran Mesin Microsoft Azure secara otomatis memvalidasi bahwa layanan penyimpanan yang mendasarinya tersedia dan hal-hal utama yang disediakan pengguna (nama pengguna, perwakilan layanan, atau token SAS) memiliki akses ke penyimpanan yang ditentukan.

    Setelah pembuatan datastore, validasi ini hanya dilakukan untuk metode yang memerlukan akses ke kontainer penyimpanan yang mendasarinya, bukan setiap kali objek datastore diambil. Misalnya, validasi terjadi jika Anda ingin mengunduh file dari datastore Anda; tetapi jika Anda hanya ingin mengubah datastore default Anda, validasi tidak terjadi.

    Untuk mengautentikasi akses Anda ke layanan penyimpanan yang mendasarinya, Anda dapat menyediakan kunci akun, token tanda tangan akses bersama (SAS), atau perwakilan layanan sesuai dengan jenis datastore yang ingin Anda buat. Daftar matriks jenis penyimpanan mencantumkan jenis autentikasi yang didukung yang sesuai dengan setiap jenis datastore.

    Anda dapat menemukan informasi kunci akun, token SAS, dan perwakilan layanan di portal Microsoft Azure Anda.

    • Jika Anda berencana menggunakan kunci akun atau token SAS untuk autentikasi, pilih Akun Penyimpanan di panel kiri, dan pilih akun penyimpanan yang ingin Anda daftarkan.

      • Halaman Ringkasan menyediakan informasi seperti nama akun, kontainer, dan nama berbagi file.
        1. Untuk kunci akun, masuk ke Tombol akses di panel Pengaturan.
        2. Untuk token SAS, buka Tanda tangan akses bersama di panel Pengaturan.
    • Jika Anda berencana menggunakan perwakilan layanan untuk autentikasi, buka Pendaftaran aplikasi dan pilih aplikasi mana yang ingin Anda gunakan.

      • Halaman Ringkasan terkait akan berisi informasi yang diperlukan seperti ID penyewa dan ID klien.

    Penting

    • Jika Anda perlu mengubah kunci akses untuk akun Azure Storage (kunci akun atau token SAS), pastikan untuk menyinkronkan kredensial baru dengan ruang kerja Anda dan datastore yang terhubung dengannya. Pelajari cara menyinkronkan kredensial yang diperbarui.

    • Jika Anda membatalkan pendaftaran dan mendaftarkan ulang datastore dengan nama yang sama, kemudian gagal, Azure Key Vault untuk ruang kerja Anda mungkin tidak mengaktifkan penghapusan sementara. Secara default, penghapusan sementara diaktifkan untuk instans brankas kunci yang dibuat oleh ruang kerja Anda, tetapi mungkin tidak diaktifkan jika Anda menggunakan brankas kunci yang sudah ada atau memiliki ruang kerja yang dibuat sebelum Oktober 2020. Untuk informasi tentang cara mengaktifkan penghapusan sementara, lihat Mengaktifkan Penghapusan Sementara untuk key vault yang ada.

    Izin

    Untuk kontainer blob Azure dan penyimpanan Azure Data Lake Gen 2, pastikan kredensial autentikasi Anda memiliki akses Storage Blob Data Reader. Pelajari selengkapnya tentang Storage Blob Data Reader. Pengaturan default token SAS akun adalah tidak memiliki izin.

    • Untuk akses baca data, kredensial autentikasi Anda harus memiliki minimal izin daftar dan baca untuk kontainer dan objek.

    • Untuk akses tulis data, izin tulis dan tambahkan juga diperlukan.

    Latih dengan set data

    Gunakan himpunan data Anda dalam eksperimen pembelajaran mesin untuk melatih model ML. Pelajari selengkapnya tentang cara berlatih dengan himpunan data.

    Langkah berikutnya