Konfigurasi dan optimalkan VM
Perhatian
Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan rencanakan yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.
Berlaku untuk: ✔️ Mesin virtual Linux ✔️ Mesin virtual Windows ✔️ Set skala fleksibel ✔️ Set skala seragam
Artikel ini membagikan beberapa panduan tentang mengonfigurasi dan mengoptimalkan VM seri HB dan seri N dengan dukungan InfiniBand untuk HPC.
Gambar VM
Pada VM yang diaktifkan InfiniBand (IB), driver IB yang sesuai diperlukan untuk mengaktifkan RDMA.
- Gambar VM Ubuntu-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
- Gambar VM AlmaLinux-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
Gambar VM ini didasarkan pada gambar VM marketplace Ubuntu dan AlmaLinux dasar. Skrip yang digunakan dalam pembuatan gambar VM ini dari gambar marketplace dasar mereka ada di repositori azhpc-images.
Pada VM Seri N yang diaktifkan GPU, driver GPU yang sesuai juga diperlukan. Ini dapat tersedia dengan metode berikut:
- Gunakan gambar VM Ubuntu-HPC atau gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
- Tambahkan driver GPU melalui ekstensi komputer virtual.
- Instal driver GPU secara manual.
- Beberapa gambar VM lainnya di Marketplace juga telah diinstal sebelumnya dengan driver GPU NVIDIA, termasuk beberapa gambar VM dari NVIDIA.
Tergantung pada kebutuhan distro dan versi Linux beban kerja, gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC di Marketplace adalah cara term mudah untuk memulai beban kerja HPC dan AI di Azure. Disarankan juga untuk membuat gambar VM kustom dengan kustomisasi dan konfigurasi khusus beban kerja untuk digunakan kembali.
Ukuran VM yang didukung oleh gambar VM HPC
Dukungan InfiniBand OFED
Gambar marketplace Azure HPC terbaru hadir dengan Mellanox OFED 5.1 dan yang lebih baru, yang tidak mendukung kartu ConnectX3-Pro InfiniBand. Koneksi X-3 Pro InfiniBand memerlukan versi MOFED 4.9 LTS. Gambar VM ini hanya mendukung ConnextX-5 dan kartu InfiniBand yang lebih baru. Ukuran VM berikut mendukung matriks untuk InfiniBand OFED dalam gambar HPC VM ini:
Dukungan driver GPU
Saat ini hanya gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
Matriks dukungan ukuran VM untuk driver GPU dalam gambar HPC VM yang didukung adalah sebagai berikut:
- Seri N: Ukuran VM NDv2, NDv4 didukung dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
- Ukuran VM 'NC' dan 'ND' lainnya dalam seri N didukung dengan driver GPU NVIDIA.
Semua ukuran mesin virtual di seri N mendukung mesin virtual Gen 2, meskipun beberapa yang lebih tua juga mendukung mesin virtual Gen 1. Dukungan "Gen 2" juga ditunjukkan dengan "01" di akhir versi atau URN VMI.
VM yang diaktifkan SR-IOV
Gambar VM Ubuntu-HPC
Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM Ubuntu-HPC versi 18.04, 20.04, dan 22.04 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.
Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.
"publisher": "Microsoft-DSVM", "offer": "Ubuntu-HPC",
Skrip yang digunakan dalam pembuatan gambar VM Ubuntu-HPC dari gambar dasar Ubuntu Marketplace ada di azhpc-images repo.
Gambar VM AlmaLinux-HPC
Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM AlmaLinux-HPC versi 8.5, 8.6, dan 8.7 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.
Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.
"publisher": "AlmaLinux", "offer": "AlmaLinux-HPC",
Skrip yang digunakan dalam pembuatan gambar VM AlmaLinux-HPC dari gambar Marketplace AlmaLinux dasar ada di repositori azhpc-images.
Selain itu, detail tentang apa yang disertakan dalam gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC, dan cara menyebarkannya ada dalam artikel TechCommunity.
Catatan
Kami digunakan untuk mendukung gambar VM CentOS-HPC. Karena phasing out of CentOS (saat ini satu-satunya versi CentOS 7 yang didukung akan terus menerima patch keamanan komunitas dan pembaruan perbaikan bug hingga Juni 2024), kami tidak merilis gambar CentOS HPC baru ke marketplace Azure. Pengguna CentOS/RHEL disarankan untuk menggunakan alternatif gambar AlmaLinux-HPC kami di marketplace Azure, yang memiliki set driver yang sama yang diinstal sebagai gambar HPC lainnya.
Gambar VM RHEL/CentOS
Gambar VM non-HPC berbasis RHEL atau CentOS di Marketplace dapat dikonfigurasi untuk digunakan pada VM diaktifkan RDMA yang berkemampuan SR-IOV. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.
Gambar Ubuntu VM
Gambar VM Ubuntu Server 20.04 LTS dan 22.04 LTS dasar di Marketplace didukung untuk VM berkemampuan SR-IOV dan non-SR-IOV RDMA. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.
- Petunjuk untuk mengaktifkan InfiniBand pada gambar VM Ubuntu ada di artikel TechCommunity.
Catatan
Mellanox OFED 5.1 ke atas tidak mendukung kartu Koneksi X3-Pro InfiniBand pada ukuran VM seri N yang diaktifkan SR-IOV dengan FDR InfiniBand (misalnya NCv3). Harap gunakan LTS Mellanox OFED versi 4.9-0.1.7.0 atau lebih lama pada VM seri-N dengan kartu ConnectX3-Pro. Untuk informasi lebih lanjut, lihat Driver Linux InfiniBand.
Gambar SUSE Linux Enterprise Server VM
Gambar SLES 12 SP3 untuk HPC, SLES 12 SP3 untuk HPC (Premium), SLES 12 SP1 untuk HPC, SLES 12 SP1 untuk HPC (Premium), SLES 12 SP4 dan SLES 15 VM di Marketplace didukung. Gambar VM ini telah dimuat sebelumnya dengan driver Network Direct untuk RDMA (pada ukuran VM non-SR-IOV) dan Intel MPI versi 5.1. Pelajari selengkapnya tentang menyiapkan MPI di VM.
Mengoptimalkan VM
Berikut ini adalah beberapa pengaturan pengoptimalan opsional untuk meningkatkan performa pada VM.
Memperbarui LIS
Jika diperlukan untuk fungsionalitas atau performa, driver Integration Services Linux (LIS) dapat diinstal atau diperbarui pada distro OS yang didukung, terutama yang menggunakan gambar khusus atau versi OS yang lebih lama seperti CentOS/RHEL 6.x atau versi 7.x sebelumnya.
wget https://aka.ms/lis
tar xzf lis
pushd LISISO
sudo ./upgrade.sh
Mengeklaim kembali memori
Tingkatkan performa dengan mendapatkan mengeklaim kembali memori secara otomatis untuk menghindari akses memori jarak jauh.
sudo echo 1 >/proc/sys/vm/zone_reclaim_mode
Tetap rekam ulang mode memori persisten setelah reboot VM:
sudo echo "vm.zone_reclaim_mode = 1" >> /etc/sysctl.conf sysctl -p
Nonaktifkan firewall dan SELinux
sudo systemctl stop iptables.service
sudo systemctl disable iptables.service
sudo systemctl mask firewalld
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
sudo iptables -nL
sudo sed -i -e's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
Nonaktifkan cpupower
sudo service cpupower status
Jika diaktifkan, nonaktifkan:
sudo service cpupower stop
sudo systemctl disable cpupower
Konfigurasi WALinuxAgent
sudo sed -i -e 's/# OS.EnableRDMA=y/OS.EnableRDMA=y/g' /etc/waagent.conf
Secara opsional, WALinuxAgent dapat dinonaktifkan sebelum menjalankan pekerjaan lalu diaktifkan pasca-pekerjaan untuk ketersediaan sumber daya VM maksimum ke beban kerja HPC.
Langkah berikutnya
- Pelajari selengkapnya tentang mengaktifkan InfiniBand pada VM seri HB dan seri N dengan dukungan InfiniBand.
- Pelajari lebih lanjut menginstal dan menjalankan berbagai pustaka MPI yang didukung pada VM.
- Tinjau gambaran umum seri-HBv3 dan gambaran umum seri-HC.
- Membaca tentang pengumuman terbaru, contoh beban kerja HPC, dan hasil performa di Blog Komunitas Teknologi Azure Compute.
- Untuk tampilan arsitektur tingkat yang lebih tinggi dari beban kerja HPC yang berjalan, lihat Komputasi Kinerja Tinggi (HPC) pada Azure.