Akses data jaringan dengan studio Azure Machine Learning

Akses data itu kompleks dan penting untuk diketahui bahwa ada banyak bagian di dalamnya. Misalnya, mengakses data dari studio Azure Machine Learning berbeda dengan menggunakan SDK. Saat menggunakan SDK di lingkungan pengembangan lokal, Anda langsung mengakses data di cloud. Saat menggunakan studio, Anda tidak selalu langsung mengakses penyimpanan data dari klien Anda. Studio mengandalkan ruang kerja untuk mengakses data atas nama Anda.

Penting

Informasi dalam artikel ini ditujukan untuk administrator Azure yang membuat infrastruktur yang diperlukan untuk solusi Azure Machine Learning.

Tip

Studio hanya mendukung pembacaan data dari jenis penyimpanan data berikut di VNet:

  • Akun Azure Storage (blob & file)
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL Database

Akses data

Secara umum, akses data dari studio melibatkan pemeriksaan berikut:

  1. Siapa yang mengakses?
    • Ada beberapa jenis autentikasi yang berbeda tergantung jenis penyimpanan. Misalnya, kunci akun, token, prinsip layanan, identitas terkelola, dan identitas pengguna.
    • Jika autentikasi dilakukan menggunakan identitas pengguna, penting untuk mengetahui pengguna mana yang mencoba mengakses penyimpanan.
  2. Apakah mereka memiliki izin?
    • Apakah kredensialnya benar? Jika demikian, apakah perwakilan layanan, identitas terkelola, dll., memiliki izin yang diperlukan pada penyimpanan? Izin diberikan menggunakan kontrol akses berbasis peran Azure (Azure RBAC).
    • Pembaca akun penyimpanan membaca metadata penyimpanan.
    • Pembaca Data Blob Penyimpanan membaca data dalam kontainer blob.
    • Kontributor memungkinkan menulis akses ke akun penyimpanan.
    • Lebih banyak peran mungkin diperlukan tergantung jenis penyimpanan.
  3. Dari mana aksesnya?
    • Pengguna: Apakah alamat IP klien dalam rentang VNet/subnet?
    • Ruang kerja: Apakah ruang kerja publik atau memiliki titik akhir privat di VNet/subnet?
    • Penyimpanan: Apakah penyimpanan mengizinkan akses publik, atau membatasi akses melalui titik akhir layanan atau titik akhir privat?
  4. Operasi apa yang sedang dilakukan?
    • Operasi buat, baca, perbarui, dan hapus (CRUD) pada penyimpanan data/set data ditangani oleh Azure Machine Learning.
    • Panggilan Akses Data (seperti pratinjau atau skema) masuk ke penyimpanan yang mendasarinya dan memerlukan izin tambahan.
  5. Di mana operasi ini dijalankan; menghitung sumber daya di langganan Azure Anda atau sumber daya yang di-host di langganan Microsoft?
    • Semua panggilan ke himpunan data dan layanan penyimpanan data (kecuali opsi "Buat Profil") menggunakan sumber daya yang di-host di langganan Microsoft untuk menjalankan operasi.
    • Jobs, termasuk opsi "Hasilkan Profil" untuk kumpulan data, berjalan pada sumber daya komputasi dalam langganan Anda, dan mengakses data dari sana. Jadi, identitas komputasi memerlukan izin ke penyimpanan, bukan identitas pengguna yang mengirimkan pekerjaan.

Diagram berikut menunjukkan aliran umum panggilan akses data. Dalam contoh ini, pengguna mencoba melakukan panggilan akses data melalui ruang kerja pembelajaran mesin, tanpa menggunakan sumber daya komputasi apa pun.

Diagram aliran logika saat mengakses data

Akun Azure Storage

Saat menggunakan akun Azure Storage dari studio Azure Machine Learning, Anda harus menambahkan identitas terkelola dari ruang kerja ke peran Azure RBAC berikut untuk akun penyimpanan:

  • Pembaca Data Blob
  • Jika akun penyimpanan menggunakan titik akhir pribadi untuk terhubung ke VNet, Anda harus memberikan identitas terkelola peran Pembaca untuk titik akhir privat akun penyimpanan.

Untuk informasi selengkapnya, lihat Menggunakan studio Azure Machine Learning di Jaringan Virtual Azure.

Lihat bagian berikut untuk informasi tentang batasan saat menggunakan Azure Storage Account dengan ruang kerja Anda di VNet.

Menggunakan akun penyimpanan yang ada

Jika Anda menggunakan akun penyimpanan yang ada sebagai penyimpanan default saat membuat ruang kerja, folder azureml-filestore di penyimpanan file tidak akan dibuat secara otomatis. Folder ini diperlukan saat mengirimkan eksperimen AutoML.

Untuk menghindari masalah ini, Anda dapat mengizinkan Azure Machine Learning membuat penyimpanan default untuk Anda saat membuat ruang kerja atau memastikan akun penyimpanan yang ada tidak di VNet saat membuat ruang kerja. Untuk informasi selengkapnya tentang jaringan dengan Akun Penyimpanan Azure, lihat Mengonfigurasi Akun Azure Storage dengan jaringan virtual.

Firewall Azure Storage

Ketika akun Azure Storage berada di belakang jaringan virtual, firewall penyimpanan biasanya dapat digunakan untuk memungkinkan klien Anda terhubung langsung melalui internet. Namun, saat menggunakan studio, bukan klien Anda yang terhubung ke akun penyimpanan; itu adalah Azure Machine Learning service yang membuat permintaan. Alamat IP layanan tidak didokumentasikan dan sering berubah. Mengaktifkan firewall penyimpanan tidak akan mengizinkan studio mengakses akun penyimpanan dalam konfigurasi VNet.

Azure Data Lake Storage Gen1

Saat menggunakan Azure Data Lake Storage Gen1 sebagai datastore, Anda hanya dapat menggunakan daftar kontrol akses bergaya POSIX. Anda dapat menetapkan akses identitas yang dikelola ruang kerja ke sumber daya sama seperti perwakilan keamanan lainnya. Untuk informasi selengkapnya, lihat Kontrol akses di Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Saat menggunakan Azure Data Lake Storage Gen2 sebagai datastore, Anda dapat menggunakan kedua Azure RBAC dan daftar kontrol akses (ACL) bergaya POSIX untuk mengontrol akses data di dalam jaringan virtual.

Untuk menggunakan Azure RBAC, ikuti langkah-langkah di bagian Datastore: Azure Storage Account pada artikel 'Gunakan studio Azure Machine Learning di Azure Virtual Network'. Data Lake Storage Gen2 didasarkan pada Azure Storage, sehingga langkah yang sama berlaku saat menggunakan Azure RBAC.

Untuk menggunakan ACL, identitas terkelola dari ruang kerja dapat diberikan akses sama seperti prinsip keamanan lainnya. Untuk informasi selengkapnya, lihat Daftar kontrol akses pada file dan direktori.

Azure SQL Database

Untuk mengakses data yang disimpan dalam Azure SQL Database menggunakan identitas terkelola, Anda harus membuat pengguna yang dimuat SQL yang dipetakan ke identitas terkelola. Untuk informasi selengkapnya tentang cara membuat pengguna dari penyedia eksternal, lihat Membuat pengguna mandiri yang dipetakan ke identitas Azure AD.

Setelah Anda membuat pengguna mandiri SQL, beri pengguna tersebut izin dengan menggunakan perintah GRANT T-SQL.

Menolak akses jaringan publik

Di Azure SQL Database, Tolak akses jaringan publik memungkinkan Anda memblokir akses publik ke database. Kami tidak mendukung mengakses SQL Database jika opsi ini diaktifkan. Saat menggunakan SQL Database dengan studio Azure Machine Learning, akses data selalu dilakukan melalui titik akhir publik untuk SQL Database.

Langkah berikutnya

Untuk informasi tentang mengaktifkan studio dalam jaringan, lihat Gunakan studio Azure Machine Learning di Azure Virtual Network.