Memecahkan masalah dengan Azure Ilmu Data Virtual Machine

Artikel ini menjelaskan cara menemukan dan memperbaiki kesalahan atau kegagalan yang mungkin Anda temui saat menggunakan Azure Ilmu Data Virtual Machine.

Ubuntu

Memperbaiki GPU pada Chip GPU NVIDIA A100 - Seri Azure NDasrv4

Komputer virtual seri ND A100 v4 adalah tambahan unggulan untuk keluarga GPU Azure. Ini menangani pelatihan Deep Pembelajaran kelas atas dan digabungkan dengan erat, diskalakan, dan menskalakan beban kerja HPC.

Karena arsitekturnya yang unik, perlu pengaturan yang berbeda untuk beban kerja permintaan tinggi, untuk mendapatkan manfaat dari akselerasi GPU menggunakan kerangka kerja TensorFlow atau PyTorch.

Kami membangun dukungan siap pakai untuk GPU mesin ND A100. Sementara itu, GPU Anda dapat menangani Ubuntu jika Anda menambahkan NVIDIA Fabric Manager, dan memperbarui driver. Ikuti langkah-langkah ini di terminal:

  1. Tambahkan repositori NVIDIA untuk menginstal atau memperbarui driver - temukan instruksi langkah demi langkah di sumber daya ini

  2. [OPSIONAL] Anda juga dapat memperbarui driver CUDA Anda, dari repositori tersebut

  3. Instal driver NVIDIA Fabric Manager:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. Reboot VM Anda (untuk menyiapkan driver)

  5. Aktifkan dan luncurkan layanan NVIDIA Fabric Manager yang baru diinstal:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

Jalankan sampel kode ini untuk memverifikasi bahwa GPU dan driver Anda berfungsi:

systemctl status nvidia-fabricmanager.service

Cuplikan layar ini menunjukkan layanan Fabric Manager yang berjalan:

Cuplikan layar memperlihatkan layanan Fabric Manager yang berjalan.

Sambungan ke lingkungan desktop gagal

Jika Anda dapat terhubung ke DSVM melalui terminal SSH, tetapi Anda tidak dapat terhubung melalui x2go, x2go mungkin memiliki pengaturan jenis sesi yang salah. Untuk menyambungkan ke lingkungan desktop DSVM, atur jenis sesi di x2go/sesi preferensi/sesi ke XFCE. Lingkungan desktop lain saat ini tidak didukung.

Font terlihat salah saat menghubungkan ke DSVM menggunakan x2go

Pengaturan sesi x2go tertentu dapat menyebabkan beberapa font terlihat salah saat Anda tersambung ke x2go. Sebelum Anda tersambung ke DSVM, hapus centang pada kotak centang "Atur DPI tampilan" di tab "Input/Output" dari dialog preferensi sesi.

Diminta kata sandi yang tidak dikenal

Anda dapat mengatur pengaturan jenis Autentikasi DSVM ke Kunci Umum SSH. Ini disarankan, alih-alih autentikasi kata sandi. Anda tidak menerima kata sandi jika Anda menggunakan Kunci Umum SSH. Namun, dalam beberapa skenario, beberapa aplikasi masih meminta kata sandi. Jalankan sudo passwd <user_name> untuk membuat kata sandi baru untuk pengguna tertentu. Dengan sudo passwd, Anda dapat membuat sandi baru untuk pengguna root.

Menjalankan perintah ini tidak mengubah konfigurasi SSH, dan mekanisme masuk yang diizinkan tetap sama.

Diminta kata sandi saat menjalankan perintah sudo

Saat menjalankan sudo perintah pada komputer Ubuntu, Anda mungkin mendapatkan permintaan untuk berulang kali memasukkan kata sandi Anda untuk memverifikasi bahwa Anda adalah pengguna yang masuk. Ini diharapkan perilaku Ubuntu default. Namun, dalam beberapa situasi, autentikasi berulang tidak diperlukan dan agak mengganggu.

Untuk menonaktifkan aautotikasi ulang untuk sebagian besar kasus, Anda dapat menjalankan perintah ini di terminal:

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

Setelah Anda menghidupkan ulang terminal, sudo tidak akan meminta masuk lain dan itu akan mempertimbangkan autentikasi dari masuk sesi Anda sebagai cukup.

Tidak dapat menggunakan docker sebagai pengguna nonroot

Untuk menggunakan docker sebagai pengguna nonroot, pengguna Anda memerlukan keanggotaan di grup docker. Perintah mengembalikan daftar pengguna yang termasuk dalam grup tersebut getent group docker . Untuk menambahkan pengguna Anda ke grup docker, jalankan sudo usermod -aG docker $USER.

Kontainer Docker tidak dapat berinteraksi dengan luar melalui jaringan

Secara default, Docker menambahkan kontainer baru ke apa yang disebut "jaringan jembatan": 172.17.0.0/16. Subnet jaringan jembatan tersebut dapat tumpang tindih dengan subnet DSVM Anda, atau dengan subnet privat lain yang Anda miliki di langganan Anda. Dalam hal ini, tidak ada komunikasi jaringan antara host dan kontainer yang dimungkinkan. Selain itu, aplikasi web yang berjalan dalam kontainer tidak dapat dijangkau, dan kontainer tidak dapat memperbarui paket dari apt.

Untuk memperbaiki masalah ini, Anda harus mengonfigurasi ulang Docker untuk menggunakan ruang alamat IP untuk jaringan jembatannya yang tidak tumpang tindih dengan jaringan lain langganan Anda. Misalnya, jika Anda menambahkan

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

/etc/docker/daemon.json ke file JSON, Docker menetapkan subnet lain ke jaringan penghubung. Anda harus mengedit file dengan sudo, misalnya dengan menjalankan sudo nano /etc/docker/daemon.json.

Setelah perubahan, jalankan service docker restart untuk memulai ulang layanan Docker. Untuk menentukan apakah perubahan Anda berlaku atau tidak, dapat menjalankan docker network inspect bridge. Nilai di bawah IPAM. Config.Subnet harus sesuai dengan kumpulan alamat yang ditentukan sebelumnya.

GPU tidak tersedia dalam kontainer docker

Sumber daya Docker yang diinstal pada DSVM mendukung GPU secara default. Namun, dukungan tersebut memerlukan prasyarat tertentu.

  • Ukuran VM DSVM harus menyertakan setidaknya satu GPU.
  • Saat memulai kontainer docker dengan docker run, Anda harus menambahkan parameter --gpus : misalnya, --gpus all.
  • Ukuran VM yang mencakup GPU NVIDIA A100 memerlukan paket perangkat lunak lain yang diinstal, terutama NVIDIA Fabric Manager. Paket ini mungkin tidak diinstal sebelumnya dalam gambar Anda.

Windows

Mesin Virtual Generasi 2 (Gen 2) tidak berfungsi

Ketika Anda mencoba membuat VM Ilmu Data berdasarkan Komputer Virtual Generasi 2 (Gen 2), komputer virtual gagal.

Saat ini, kami memelihara dan menyediakan gambar untuk Ilmu Data Virtual Machines (DSVM) berdasarkan Windows 2019 Server, hanya untuk DSVM Generasi 1. Gen 2 belum didukung, tetapi kami berencana untuk mendukungnya dalam waktu dekat.

Mengakses SQL Server

Ketika Anda mencoba menyambungkan ke instans SQL Server yang telah diinstal sebelumnya, Anda mungkin mengalami kesalahan "gagal masuk". Agar berhasil terhubung ke instans SQL Server, Anda harus menjalankan program yang ingin Anda sambungkan - misalnya, SQL Server Management Studio (SSMS) - dalam mode administrator. Mode administrator diperlukan karena oleh perilaku default DSVM, hanya administrator yang dapat tersambung.

Hyper-V tidak berfungsi

Seperti perilaku yang diharapkan, Hyper-V awalnya tidak berfungsi di Windows. Untuk performa terbaik, kami menonaktifkan beberapa layanan. Mengaktifkan Hyper-V:

  1. Membuka bilah pencarian pada Windows DSVM Anda
  2. Ketik "Layanan,"
  3. Atur semua layanan Hyper-V ke "Manual"
  4. Atur "Hyper-V Virtual Machine Management" ke "Otomatis"

Tampilan terakhir Anda akan terlihat seperti ini:

Cuplikan layar memperlihatkan layanan Hyper-V yang berjalan.