Konfigurasi dan optimalkan VM

Perhatian

Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan rencanakan yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.

Berlaku untuk: ✔️ Mesin virtual Linux ✔️ Mesin virtual Windows ✔️ Set skala fleksibel ✔️ Set skala seragam

Artikel ini membagikan beberapa panduan tentang mengonfigurasi dan mengoptimalkan VM seri HB dan seri N dengan dukungan InfiniBand untuk HPC.

Gambar VM

Pada VM yang diaktifkan InfiniBand (IB), driver IB yang sesuai diperlukan untuk mengaktifkan RDMA.

  • Gambar VM Ubuntu-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
  • Gambar VM AlmaLinux-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.

Gambar VM ini didasarkan pada gambar VM marketplace Ubuntu dan AlmaLinux dasar. Skrip yang digunakan dalam pembuatan gambar VM ini dari gambar marketplace dasar mereka ada di repositori azhpc-images.

Pada VM Seri N yang diaktifkan GPU, driver GPU yang sesuai juga diperlukan. Ini dapat tersedia dengan metode berikut:

  • Gunakan gambar VM Ubuntu-HPC atau gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
  • Tambahkan driver GPU melalui ekstensi komputer virtual.
  • Instal driver GPU secara manual.
  • Beberapa gambar VM lainnya di Marketplace juga telah diinstal sebelumnya dengan driver GPU NVIDIA, termasuk beberapa gambar VM dari NVIDIA.

Tergantung pada kebutuhan distro dan versi Linux beban kerja, gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC di Marketplace adalah cara term mudah untuk memulai beban kerja HPC dan AI di Azure. Disarankan juga untuk membuat gambar VM kustom dengan kustomisasi dan konfigurasi khusus beban kerja untuk digunakan kembali.

Ukuran VM yang didukung oleh gambar VM HPC

Dukungan InfiniBand OFED

Gambar marketplace Azure HPC terbaru hadir dengan Mellanox OFED 5.1 dan yang lebih baru, yang tidak mendukung kartu ConnectX3-Pro InfiniBand. Koneksi X-3 Pro InfiniBand memerlukan versi MOFED 4.9 LTS. Gambar VM ini hanya mendukung ConnextX-5 dan kartu InfiniBand yang lebih baru. Ukuran VM berikut mendukung matriks untuk InfiniBand OFED dalam gambar HPC VM ini:

  • Seri HB: HB, HC, HBv2, HBv3, HBv4
  • Seri-N: NDv2, NDv4

Dukungan driver GPU

Saat ini hanya gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).

Matriks dukungan ukuran VM untuk driver GPU dalam gambar HPC VM yang didukung adalah sebagai berikut:

  • Seri N: Ukuran VM NDv2, NDv4 didukung dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
  • Ukuran VM 'NC' dan 'ND' lainnya dalam seri N didukung dengan driver GPU NVIDIA.

Semua ukuran mesin virtual di seri N mendukung mesin virtual Gen 2, meskipun beberapa yang lebih tua juga mendukung mesin virtual Gen 1. Dukungan "Gen 2" juga ditunjukkan dengan "01" di akhir versi atau URN VMI.

VM yang diaktifkan SR-IOV

Gambar VM Ubuntu-HPC

Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM Ubuntu-HPC versi 18.04, 20.04, dan 22.04 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.

  • Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.

    "publisher": "Microsoft-DSVM",
    "offer": "Ubuntu-HPC",
    
  • Skrip yang digunakan dalam pembuatan gambar VM Ubuntu-HPC dari gambar dasar Ubuntu Marketplace ada di azhpc-images repo.

Gambar VM AlmaLinux-HPC

Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM AlmaLinux-HPC versi 8.5, 8.6, dan 8.7 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.

  • Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.

    "publisher": "AlmaLinux",
    "offer": "AlmaLinux-HPC",
    
  • Skrip yang digunakan dalam pembuatan gambar VM AlmaLinux-HPC dari gambar Marketplace AlmaLinux dasar ada di repositori azhpc-images.

Selain itu, detail tentang apa yang disertakan dalam gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC, dan cara menyebarkannya ada dalam artikel TechCommunity.

Catatan

Kami digunakan untuk mendukung gambar VM CentOS-HPC. Karena phasing out of CentOS (saat ini satu-satunya versi CentOS 7 yang didukung akan terus menerima patch keamanan komunitas dan pembaruan perbaikan bug hingga Juni 2024), kami tidak merilis gambar CentOS HPC baru ke marketplace Azure. Pengguna CentOS/RHEL disarankan untuk menggunakan alternatif gambar AlmaLinux-HPC kami di marketplace Azure, yang memiliki set driver yang sama yang diinstal sebagai gambar HPC lainnya.

Gambar VM RHEL/CentOS

Gambar VM non-HPC berbasis RHEL atau CentOS di Marketplace dapat dikonfigurasi untuk digunakan pada VM diaktifkan RDMA yang berkemampuan SR-IOV. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.

Gambar Ubuntu VM

Gambar VM Ubuntu Server 20.04 LTS dan 22.04 LTS dasar di Marketplace didukung untuk VM berkemampuan SR-IOV dan non-SR-IOV RDMA. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.

Catatan

Mellanox OFED 5.1 ke atas tidak mendukung kartu Koneksi X3-Pro InfiniBand pada ukuran VM seri N yang diaktifkan SR-IOV dengan FDR InfiniBand (misalnya NCv3). Harap gunakan LTS Mellanox OFED versi 4.9-0.1.7.0 atau lebih lama pada VM seri-N dengan kartu ConnectX3-Pro. Untuk informasi lebih lanjut, lihat Driver Linux InfiniBand.

Gambar SUSE Linux Enterprise Server VM

Gambar SLES 12 SP3 untuk HPC, SLES 12 SP3 untuk HPC (Premium), SLES 12 SP1 untuk HPC, SLES 12 SP1 untuk HPC (Premium), SLES 12 SP4 dan SLES 15 VM di Marketplace didukung. Gambar VM ini telah dimuat sebelumnya dengan driver Network Direct untuk RDMA (pada ukuran VM non-SR-IOV) dan Intel MPI versi 5.1. Pelajari selengkapnya tentang menyiapkan MPI di VM.

Mengoptimalkan VM

Berikut ini adalah beberapa pengaturan pengoptimalan opsional untuk meningkatkan performa pada VM.

Memperbarui LIS

Jika diperlukan untuk fungsionalitas atau performa, driver Integration Services Linux (LIS) dapat diinstal atau diperbarui pada distro OS yang didukung, terutama yang menggunakan gambar khusus atau versi OS yang lebih lama seperti CentOS/RHEL 6.x atau versi 7.x sebelumnya.

wget https://aka.ms/lis
tar xzf lis
pushd LISISO
sudo ./upgrade.sh

Mengeklaim kembali memori

Tingkatkan performa dengan mendapatkan mengeklaim kembali memori secara otomatis untuk menghindari akses memori jarak jauh.

sudo echo 1 >/proc/sys/vm/zone_reclaim_mode

Tetap rekam ulang mode memori persisten setelah reboot VM:

sudo echo "vm.zone_reclaim_mode = 1" >> /etc/sysctl.conf sysctl -p

Nonaktifkan firewall dan SELinux

sudo systemctl stop iptables.service
sudo systemctl disable iptables.service
sudo systemctl mask firewalld
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
sudo iptables -nL
sudo sed -i -e's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config

Nonaktifkan cpupower

sudo service cpupower status

Jika diaktifkan, nonaktifkan:

sudo service cpupower stop
sudo systemctl disable cpupower

Konfigurasi WALinuxAgent

sudo sed -i -e 's/# OS.EnableRDMA=y/OS.EnableRDMA=y/g' /etc/waagent.conf

Secara opsional, WALinuxAgent dapat dinonaktifkan sebelum menjalankan pekerjaan lalu diaktifkan pasca-pekerjaan untuk ketersediaan sumber daya VM maksimum ke beban kerja HPC.

Langkah berikutnya