Administrasi data

Pelajari cara mengelola akses data dan cara mengautentikasi di Azure Pembelajaran Mesin.

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Penting

Artikel ini ditujukan untuk administrator Azure yang ingin membuat infrastruktur yang diperlukan untuk solusi Azure Pembelajaran Mesin.

Autentikasi data berbasis kredensial

Secara umum, autentikasi data berbasis kredensial melibatkan pemeriksaan ini:

  • Apakah pengguna yang mengakses data dari datastore berbasis kredensial telah diberi peran dengan kontrol akses berbasis peran (RBAC) yang berisi Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?

    • Izin ini diperlukan untuk mengambil kredensial dari datastore untuk pengguna.
    • Peran bawaan yang berisi izin ini sudah merupakan Kontributor, Pengembang Azure AI, atau Azure Pembelajaran Mesin Data Scientist. Atau, jika peran kustom diterapkan, Anda perlu memastikan bahwa izin ini ditambahkan ke peran kustom tersebut.
    • Anda harus tahu pengguna tertentu mana yang mencoba mengakses data. Ini bisa menjadi pengguna nyata dengan identitas pengguna atau komputer dengan identitas terkelola komputasi (MSI). Lihat bagian Skenario dan opsi autentikasi untuk mengidentifikasi identitas yang perlu Anda tambahkan izinnya.
  • Apakah kredensial tersimpan (perwakilan layanan, kunci akun, atau token tanda tangan akses bersama) memiliki akses ke sumber daya data?

Autentikasi data berbasis identitas

Secara umum, autentikasi data berbasis identitas melibatkan pemeriksaan ini:

  • Pengguna mana yang ingin mengakses sumber daya?
    • Bergantung pada konteks saat data diakses, berbagai jenis autentikasi tersedia, misalnya:
      • Identitas pengguna
      • Menghitung identitas terkelola
      • Identitas terkelola ruang kerja
    • Pekerjaan, termasuk opsi himpunan Generate Profile data, berjalan pada sumber daya komputasi di langganan Anda, dan mengakses data dari lokasi tersebut. Identitas terkelola komputasi memerlukan izin ke sumber daya penyimpanan, alih-alih identitas pengguna yang mengirimkan pekerjaan.
    • Untuk autentikasi berdasarkan identitas pengguna, Anda harus mengetahui pengguna tertentu mana yang mencoba mengakses sumber daya penyimpanan. Untuk informasi selengkapnya tentang autentikasi pengguna, lihat Autentikasi untuk Azure Pembelajaran Mesin. Untuk informasi selengkapnya tentang autentikasi tingkat layanan, lihat Autentikasi antara Azure Pembelajaran Mesin dan layanan lainnya.
  • Apakah pengguna ini memiliki izin untuk membaca?
    • Apakah identitas pengguna atau identitas terkelola komputasi memiliki izin yang diperlukan untuk sumber daya penyimpanan tersebut? Izin diberikan dengan menggunakan Azure RBAC.
    • Pembaca akun penyimpanan membaca metadata penyimpanan.
    • Pembaca Data Blob Penyimpanan membaca dan mencantumkan kontainer penyimpanan dan blob.
    • Untuk informasi selengkapnya, lihat Peran bawaan Azure untuk penyimpanan.
  • Apakah pengguna ini memiliki izin untuk menulis?
    • Apakah identitas pengguna atau identitas terkelola komputasi memiliki izin yang diperlukan untuk sumber daya penyimpanan tersebut? Izin diberikan dengan menggunakan Azure RBAC.
    • Pembaca akun penyimpanan membaca metadata penyimpanan.
    • Kontributor Data Blob Penyimpanan membaca, menulis, dan menghapus kontainer dan blob Azure Storage.
    • Untuk informasi selengkapnya, lihat Peran bawaan Azure untuk penyimpanan.

Pemeriksaan umum lainnya untuk autentikasi

  • Dari mana asal aksesnya?
    • Pengguna: Apakah alamat IP klien dalam rentang jaringan/subnet virtual?
    • Ruang kerja: Apakah ruang kerja bersifat publik, atau apakah ruang kerja memiliki titik akhir privat di jaringan/subnet virtual?
    • Penyimpanan: Apakah penyimpanan mengizinkan akses publik, atau membatasi akses melalui titik akhir layanan atau titik akhir privat?
  • Operasi apa yang akan dilakukan?
    • Azure Pembelajaran Mesin menangani operasi buat, baca, perbarui, dan hapus (CRUD) pada penyimpanan data/himpunan data.
    • Operasi arsip pada aset data di studio Azure Pembelajaran Mesin memerlukan operasi RBAC ini:Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Panggilan akses data (misalnya, pratinjau atau skema) masuk ke penyimpanan yang mendasar dan memerlukan izin tambahan.
  • Apakah operasi ini akan berjalan di sumber daya komputasi langganan Azure atau sumber daya yang dihosting dalam langganan Microsoft?
    • Semua panggilan ke himpunan data dan layanan datastore (kecuali Generate Profile opsi) menggunakan sumber daya yang dihosting dalam langganan Microsoft untuk menjalankan operasi.
    • Pekerjaan, termasuk opsi himpunan Generate Profile data, berjalan pada sumber daya komputasi di langganan Anda dan akses data dari lokasi tersebut. Identitas komputasi memerlukan izin ke sumber daya penyimpanan, alih-alih identitas pengguna yang mengirimkan pekerjaan.

Diagram ini memperlihatkan alur umum panggilan akses data. Di sini, pengguna mencoba melakukan panggilan akses data melalui ruang kerja Pembelajaran Mesin, tanpa menggunakan sumber daya komputasi.

Diagram yang memperlihatkan alur logika saat mengakses data.

Skenario dan opsi autentikasi

Tabel ini mencantumkan identitas yang akan digunakan untuk skenario tertentu.

Konfigurasi Komputer virtual lokal/notebook SDK Tugas Pratinjau Himpunan Data Penelusuran datastore
Kredensial + MSI Ruang Kerja Kredensial Kredensial Ruang Kerja MSI Kredensial (hanya kunci akun dan token tanda tangan akses bersama)
Tidak Ada Kredensial + MSI Ruang Kerja Komputasi identitas MSI/Pengguna Komputasi identitas MSI/Pengguna Ruang Kerja MSI Identitas pengguna
Kredensial + Tanpa MSI Ruang Kerja Kredensial Kredensial Kredensial (tidak didukung untuk Pratinjau Himpunan Data di bawah jaringan privat) Kredensial (hanya kunci akun dan token tanda tangan akses bersama)
Tidak Ada Kredensial + Tidak Ada MSI Ruang Kerja Komputasi identitas MSI/Pengguna Komputasi identitas MSI/Pengguna Identitas pengguna Identitas pengguna

Untuk SDK V1, autentikasi data dalam pekerjaan selalu menggunakan MSI komputasi. Untuk SDK V2, autentikasi data dalam pekerjaan bergantung pada pengaturan pekerjaan. Ini bisa berupa identitas pengguna atau komputasi MSI berdasarkan pengaturan Anda.

Tip

Untuk mengakses data dari luar Pembelajaran Mesin, misalnya, dengan Azure Storage Explorer, akses tersebut mungkin bergantung pada identitas pengguna. Untuk informasi spesifik, tinjau dokumentasi untuk alat atau layanan yang Anda gunakan. Untuk informasi selengkapnya tentang cara kerja Pembelajaran Mesin dengan data, lihat Menyiapkan autentikasi antara Azure Pembelajaran Mesin dan layanan lainnya.

Persyaratan khusus jaringan virtual

Informasi berikut membantu Anda menyiapkan autentikasi data untuk mengakses data di belakang jaringan virtual dari ruang kerja Pembelajaran Mesin.

Menambahkan izin akun penyimpanan ke identitas terkelola ruang kerja Pembelajaran Mesin

Saat Anda menggunakan akun penyimpanan dari studio, jika Anda ingin melihat Pratinjau Himpunan Data, Anda harus mengaktifkan Gunakan identitas terkelola ruang kerja untuk pratinjau data dan pembuatan profil di studio Azure Pembelajaran Mesin di pengaturan datastore. Kemudian tambahkan peran Azure RBAC berikut dari akun penyimpanan ke identitas terkelola ruang kerja:

  • Pembaca Data Blob
  • Jika akun penyimpanan menggunakan titik akhir privat untuk terhubung ke jaringan virtual, Anda harus memberikan peran Pembaca untuk titik akhir privat akun penyimpanan ke identitas terkelola.

Untuk informasi selengkapnya, lihat Menggunakan studio Azure Machine Learning di jaringan virtual Azure.

Bagian berikut menjelaskan batasan penggunaan akun penyimpanan, dengan ruang kerja Anda, di jaringan virtual.

Komunikasi aman dengan akun penyimpanan

Untuk mengamankan komunikasi antara akun Pembelajaran Mesin dan penyimpanan, konfigurasikan penyimpanan untuk memberikan akses ke layanan Azure tepercaya.

Firewall Azure Storage

Ketika akun penyimpanan terletak di belakang jaringan virtual, firewall penyimpanan biasanya dapat digunakan untuk memungkinkan klien Anda terhubung langsung melalui internet. Namun, saat Anda menggunakan studio, klien Anda tidak tersambung ke akun penyimpanan. Layanan Pembelajaran Mesin yang membuat permintaan terhubung ke akun penyimpanan. Alamat IP layanan tidak didokumentasikan, dan sering berubah. Mengaktifkan firewall penyimpanan tidak akan memungkinkan studio mengakses akun penyimpanan dalam konfigurasi jaringan virtual.

Jenis titik akhir Azure Storage

Saat ruang kerja menggunakan titik akhir privat, dan akun penyimpanan juga berada di jaringan virtual, persyaratan validasi tambahan muncul saat Anda menggunakan studio:

  • Jika akun penyimpanan menggunakan titik akhir layanan, titik akhir privat ruang kerja dan titik akhir layanan penyimpanan harus terletak di subnet yang sama dari jaringan virtual.
  • Jika akun penyimpanan menggunakan titik akhir privat, titik akhir privat ruang kerja dan titik akhir privat penyimpanan harus berada di jaringan virtual yang sama. Dalam hal ini, titik akhir tersebut dapat berada di subnet yang berbeda.

Azure Data Lake Storage Gen1

Saat Anda menggunakan Azure Data Lake Storage Gen1 sebagai datastore, Anda hanya dapat menggunakan daftar kontrol akses bergaya POSIX. Anda dapat menetapkan akses identitas terkelola ruang kerja ke sumber daya, seperti prinsip keamanan lainnya. Untuk informasi selengkapnya, lihat Kontrol akses di Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Saat Anda menggunakan Azure Data Lake Storage Gen2 sebagai datastore, Anda dapat menggunakan daftar kontrol akses (ACL) gaya Azure RBAC dan POSIX untuk mengontrol akses data di dalam jaringan virtual.

  • Untuk menggunakan Azure RBAC: Ikuti langkah-langkah yang dijelaskan di Datastore: Akun Azure Storage. Data Lake Storage Gen2 didasarkan pada Azure Storage, sehingga langkah yang sama berlaku saat Anda menggunakan Azure RBAC.
  • Untuk menggunakan ACL: Identitas terkelola ruang kerja dapat ditetapkan akses seperti prinsip keamanan lainnya. Untuk informasi selengkapnya, lihat Daftar kontrol akses pada file dan direktori.

Langkah berikutnya

Untuk informasi tentang cara mengaktifkan studio dalam jaringan, lihat Menggunakan studio Azure Pembelajaran Mesin di jaringan virtual Azure.