Kända problem med virtuella datorer i H-serien och N-serienKnown issues with H-series and N-series VMs

Den här artikeln försöker lista de senaste vanliga problemen och deras lösningar när du använder de virtuella datorerna HPC och GPU i H-serien och N-serien.This article attempts to list recent common issues and their solutions when using the H-series and N-series HPC and GPU VMs.

qp0-åtkomstbegränsningqp0 Access Restriction

För att förhindra åtkomst på låg nivå av maskinvara som kan leda till säkerhetsproblem är köpar 0 inte tillgängligt för virtuella gäst datorer.To prevent low-level hardware access that can result in security vulnerabilities, Queue Pair 0 is not accessible to guest VMs. Detta bör endast påverka åtgärder som vanligtvis är associerade med administration av ConnectX InfiniBand-nätverkskortet och som kör viss InfiniBand-diagnostik som ibdia diagnostict, men inte slutanvändarprogram.This should only affect actions typically associated with administration of the ConnectX InfiniBand NIC, and running some InfiniBand diagnostics like ibdiagnet, but not end-user applications.

MOFED-installation på UbuntuMOFED installation on Ubuntu

På Ubuntu-18.04-baserade VM-avbildningar på Marketplace med kernelversion och senare är vissa äldre Mellanox OFED inkompatibla, vilket i vissa fall leder till en ökning av VM-starttiden på upp till 5.4.0-1039-azure #42 30 minuter.On Ubuntu-18.04 based marketplace VM images with kernels version 5.4.0-1039-azure #42 and newer, some older Mellanox OFED are incompatible causing an increase in VM boot time up to 30 minutes in some cases. Detta har rapporterats för både Mellanox OFED-versionerna 5.2-1.0.4.0 och 5.2-2.2.0.0.This has been reported for both Mellanox OFED versions 5.2-1.0.4.0 and 5.2-2.2.0.0. Problemet löses med Mellanox OFED 5.3-1.0.0.1.The issue is resolved with Mellanox OFED 5.3-1.0.0.1. Om det är nödvändigt att använda den inkompatibla OFED är en lösning att använda avbildningen Canonical:UbuntuServer:18_04-lts-gen2:18.04.202101290 marketplace eller äldre och inte uppdatera kerneln.If it is necessary to use the incompatible OFED, a solution is to use the Canonical:UbuntuServer:18_04-lts-gen2:18.04.202101290 marketplace VM image or older and not to update the kernel.

Fel vid skapande av MPI QPMPI QP creation errors

Om det uppstår fel vid skapande av InfiniBand QP som visas nedan i körningen av MPI-arbetsbelastningar föreslår vi att du startar om den virtuella datorn och försöker arbetsbelastningen igen.If in the midst of running any MPI workloads, InfiniBand QP creation errors such as shown below, are thrown, we suggest rebooting the VM and re-trying the workload. Det här problemet kommer att åtgärdas i framtiden.This issue will be fixed in the future.

ib_mlx5_dv.c:150  UCX  ERROR mlx5dv_devx_obj_create(QP) failed, syndrome 0: Invalid argument

Du kan verifiera värdena för det maximala antalet köpar när problemet observeras på följande sätt.You may verify the values of the maximum number of queue-pairs when the issue is observed as follows.

[user@azurehpc-vm ~]$ ibv_devinfo -vv | grep qp
max_qp: 4096

Accelererat nätverk på HB, HC, HBv2 och NDv2Accelerated Networking on HB, HC, HBv2, and NDv2

Azure-accelererat nätverk är nu tillgängligt på RDMA- och InfiniBand-kompatibla och SR-IOV-aktiverade VM-storlekar HB, HC, HBv2och NDv2.Azure Accelerated Networking is now available on the RDMA and InfiniBand capable and SR-IOV enabled VM sizes HB, HC, HBv2, and NDv2. Den här funktionen kan nu förbättras i hela (upp till 30 Gbit/s) och svarstider i Azure Ethernet-nätverket.This capability now allows enhanced throughout (up to 30 Gbps) and latencies over the Azure Ethernet network. Även om detta är separat från RDMA-funktionerna i InfiniBand-nätverket kan vissa plattformsändringar för den här funktionen påverka beteendet för vissa MPI-implementeringar när jobb körs över InfiniBand.Though this is separate from the RDMA capabilities over the InfiniBand network, some platform changes for this capability may impact behavior of certain MPI implementations when running jobs over InfiniBand. Mer specifikt kan InfiniBand-gränssnittet på vissa virtuella datorer ha ett något annorlunda namn (mlx5_1 till skillnad från tidigare mlx5_0) och detta kan kräva justeringar av MPI-kommandoraderna, särskilt när du använder UCX-gränssnittet (vanligtvis med OpenMPI och HPC-X).Specifically the InfiniBand interface on some VMs may have a slightly different name (mlx5_1 as opposed to earlier mlx5_0) and this may require tweaking of the MPI command lines especially when using the UCX interface (commonly with OpenMPI and HPC-X). Den enklaste lösningen för närvarande är att använda den senaste HPC-X på avbildningarna av virtuella CentOS-HPC-datorer eller inaktivera accelererat nätverk om det inte behövs.The simplest solution currently may be to use the latest HPC-X on the CentOS-HPC VM images or disable Accelerated Networking if not required. Mer information om detta finns i den här TechCommunity-artikeln med instruktioner om hur du kan åtgärda eventuella observerade problem.More details on this are available on this TechCommunity article with instructions on how to address any observed issues.

Installation av InfiniBand-drivrutin på virtuella datorer som inte är SR-IOVInfiniBand driver installation on non-SR-IOV VMs

H16r, H16mr och NC24r är för närvarande inte SR-IOV-aktiverade.Currently H16r, H16mr and NC24r are not SR-IOV enabled. Lite information om infiniBand-stackens bication finns här.Some details on the InfiniBand stack bifurcation are here. InfiniBand kan konfigureras på SR-IOV-aktiverade VM-storlekar med OFED-drivrutiner medan vm-storlekar som inte är SR-IOV kräver ND-drivrutiner.InfiniBand can be configured on the SR-IOV enabled VM sizes with the OFED drivers while the non-SR-IOV VM sizes require ND drivers. Det här IB-stödet är tillgängligt på lämpligt sätt för CentOS, RHEL och Ubuntu.This IB support is available appropriately for CentOS, RHEL, and Ubuntu.

Duplicera MAC med cloud-init med Ubuntu på virtuella datorer i H-serien och N-serienDuplicate MAC with cloud-init with Ubuntu on H-series and N-series VMs

Det finns ett känt problem med cloud-init på virtuella Ubuntu-datoravbildningar när IB-gränssnittet används.There is a known issue with cloud-init on Ubuntu VM images as it tries to bring up the IB interface. Detta kan inträffa antingen vid omstart av den virtuella datorn eller när du försöker skapa en VM-avbildning efter generalisering.This can happen either on VM reboot or when trying to create a VM image after generalization. Startloggarna för den virtuella datorn kan visa ett fel som liknar följande:The VM boot logs may show an error like so:

“Starting Network Service...RuntimeError: duplicate mac found! both 'eth1' and 'ib0' have mac”.

Det här "duplicera MAC med cloud-init på Ubuntu" är ett känt problem.This 'duplicate MAC with cloud-init on Ubuntu" is a known issue. Detta löses i nyare kernels.This will be resolved in newer kernels. Om problemet uppstår är lösningen:IF the issue is encountered, the workaround is:

  1. Distribuera vm-avbildningen marketplace (Ubuntu 18.04)Deploy the (Ubuntu 18.04) marketplace VM image
  2. Installera nödvändiga programvarupaket för att aktivera IB (instruktion här)Install the necessary software packages to enable IB (instruction here)
  3. Redigera waagent.conf för att ändra EnableRDMA=yEdit waagent.conf to change EnableRDMA=y
  4. Inaktivera nätverk i cloud-initDisable networking in cloud-init
    echo network: {config: disabled} | sudo tee /etc/cloud/cloud.cfg.d/99-disable-network-config.cfg
    
  5. Redigera nätverkskonfigurationsfilen för netplan som genererats av cloud-init för att ta bort MACEdit netplan's networking configuration file generated by cloud-init to remove the MAC
    sudo bash -c "cat > /etc/netplan/50-cloud-init.yaml" <<'EOF'
    network:
      ethernets:
        eth0:
          dhcp4: true
      version: 2
    EOF
    

DRAM på virtuella datorer i HB-serienDRAM on HB-series VMs

Virtuella datorer i HB-serien kan bara exponera 228 GB RAM för virtuella gästbaserade datorer just nu.HB-series VMs can only expose 228 GB of RAM to guest VMs at this time. 458 GB på HBv2 och 448 GB på virtuella HBv3-datorer.Similarly, 458 GB on HBv2 and 448 GB on HBv3 VMs. Detta beror på en känd begränsning i Azure Hypervisor för att förhindra att sidor tilldelas till den lokala DRAM för AMD CCX:s (NUMA-domäner) som är reserverade för den virtuella gästdatorn.This is due to a known limitation of Azure hypervisor to prevent pages from being assigned to the local DRAM of AMD CCX’s (NUMA domains) reserved for the guest VM.

GSS-proxyGSS Proxy

GSS Proxy har en känd bugg i CentOS/RHEL 7.5 som kan visas som en betydande prestanda- och svarstidsförsening när den används med NFS.GSS Proxy has a known bug in CentOS/RHEL 7.5 that can manifest as a significant performance and responsiveness penalty when used with NFS. Detta kan åtgärdas med:This can be mitigated with:

sed -i 's/GSS_USE_PROXY="yes"/GSS_USE_PROXY="no"/g' /etc/sysconfig/nfs

CacherensningCache Cleaning

På HPC-system är det ofta praktiskt att rensa minnet när ett jobb har slutförts innan nästa användare tilldelas samma nod.On HPC systems, it is often useful to clean up the memory after a job has finished before the next user is assigned the same node. När du har kört program i Linux kan det hända att ditt tillgängliga minne minskar medan buffertminnet ökar, trots att du inte kör några program.After running applications in Linux you may find that your available memory reduces while your buffer memory increases, despite not running any applications.

Skärmbild av kommandotolken före rensning

Med numactl -H hjälp av visas vilka NUMAnode(er) som minnet buffrats med (eventuellt alla).Using numactl -H will show which NUMAnode(s) the memory is buffered with (possibly all). I Linux kan användare rensa cacheminnen på tre sätt för att returnera buffrat eller cachelagrat minne till "ledigt".In Linux, users can clean the caches in three ways to return buffered or cached memory to ‘free’. Du måste vara rot eller ha sudo-behörigheter.You need to be root or have sudo permissions.

echo 1 > /proc/sys/vm/drop_caches [frees page-cache]
echo 2 > /proc/sys/vm/drop_caches [frees slab objects e.g. dentries, inodes]
echo 3 > /proc/sys/vm/drop_caches [cleans page-cache and slab objects]

Skärmbild av kommandotolken efter rensning

KernelvarningarKernel warnings

Du kan ignorera följande kernelvarningsmeddelanden när du startar en virtuell dator i HB-serien under Linux.You may ignore the following kernel warning messages when booting an HB-series VM under Linux. Detta beror på en känd begränsning i Azure-hypervisor-programmet som kommer att åtgärdas över tid.This is due to a known limitation of the Azure hypervisor that will be addressed over time.

[  0.004000] WARNING: CPU: 4 PID: 0 at arch/x86/kernel/smpboot.c:376 topology_sane.isra.3+0x80/0x90
[  0.004000] sched: CPU #4's llc-sibling CPU #0 is not on the same node! [node: 1 != 0]. Ignoring dependency.
[  0.004000] Modules linked in:
[  0.004000] CPU: 4 PID: 0 Comm: swapper/4 Not tainted 3.10.0-957.el7.x86_64 #1
[  0.004000] Hardware name: Microsoft Corporation Virtual Machine/Virtual Machine, BIOS 090007 05/18/2018
[  0.004000] Call Trace:
[  0.004000] [<ffffffffb8361dc1>] dump_stack+0x19/0x1b
[  0.004000] [<ffffffffb7c97648>] __warn+0xd8/0x100
[  0.004000] [<ffffffffb7c976cf>] warn_slowpath_fmt+0x5f/0x80
[  0.004000] [<ffffffffb7c02b34>] ? calibrate_delay+0x3e4/0x8b0
[  0.004000] [<ffffffffb7c574c0>] topology_sane.isra.3+0x80/0x90
[  0.004000] [<ffffffffb7c57782>] set_cpu_sibling_map+0x172/0x5b0
[  0.004000] [<ffffffffb7c57ce1>] start_secondary+0x121/0x270
[  0.004000] [<ffffffffb7c000d5>] start_cpu+0x5/0x14
[  0.004000] ---[ end trace 73fc0e0825d4ca1f ]---

Nästa stegNext steps