NDm A100 v4-Serie

Achtung

Dieser Artikel bezieht sich auf CentOS, eine Linux-Distribution, die sich dem End-of-Life-Status (EOL) nähert. Sie sollten Ihre Nutzung entsprechend planen. Weitere Informationen finden Sie im CentOS End-of-Life-Leitfaden.

Gilt für: ✔️ Linux-VMs ✔️ Windows-VMs ✔️ Flexible Skalierungsgruppen ✔️ Einheitliche Skalierungsgruppen

Der virtuelle Computer (VM) der NDm A100 v4-Serie ist eine neues Flaggschiff der Azure-GPU-Familie. Er ist für High-End-Deep Learning-Training und eng gekoppelte hochskalierte und horizontal skalierte HPC-Workloads konzipiert.

Die NDm A100 v4-Serie beginnt mit einer einzelnen VM und acht NVIDIA Ampere A100 Tensor Core-GPUs mit 80 GB. NDm A100 v4-basierte Bereitstellungen können auf Tausende von GPUs mit einer Verbindungsbandbreite von 1,6 TB/s pro VM hochskaliert werden. Jede GPU innerhalb der VM kommt mit einer eigenen dedizierten, topologieunabhängigen NVIDIA Mellanox HDR InfiniBand-Verbindung, die 200 GB/s Bandbreite bietet. Diese Verbindungen werden automatisch zwischen VMs in der gleichen VM-Skalierungsgruppe erstellt und unterstützen GPUDirect-RDMA.

Jede GPU verfügt über NVLINK 3.0-Konnektivität für die VM-interne Kommunikation, und die Instanz wird durch 96 physische AMD Epyc™ 7V12 (Rome) CPU-Kerne der 2. Generation unterstützt.

Diese Instanzen bieten hervorragende Leistung für zahlreiche KI-, ML- und Analysetools mit integrierter Unterstützung für GPU-Beschleunigung. Dazu zählen beispielsweise TensorFlow, Pytorch, Caffe, RAPIDS und andere Frameworks. Darüber hinaus wird die InfiniBand-Verbindung mit horizontaler Skalierung von vielen vorhandenen KI- und HPC-Tools unterstützt, die auf den NCCL2-Kommunikationsbibliotheken von NVIDIA für das nahtlose GPU-Clustering aufbauen.

Wichtig

Informationen zu den ersten Schritten mit NDm A100 v4-VMs, einschließlich der Treiber- und Netzwerkkonfiguration, finden Sie unter Konfiguration und Optimierung von HPC-Workloads. Aufgrund des größeren GPU-Arbeitsspeicherbedarfs werden für die NDm A100_v4 VMs der 2. Generation und Marketplace-Images benötigt. Es werden dringend die Azure HPC-Images empfohlen. Azure HPC Ubuntu 18.04-, 20.04- und Azure HPC CentOS 7.9-Images werden unterstützt.


Storage Premium: Unterstützt
Storage Premium-Zwischenspeicherung: Unterstützt
Ultra Disks: Unterstützt (Weitere Informationen zur Verfügbarkeit, Verwendung und Leistung)
Livemigration: Nicht unterstützt
Updates mit Speicherbeibehaltung: Nicht unterstützt
Unterstützung von VM-Generationen: Generation 2
Beschleunigter Netzwerkbetrieb: Unterstützt
Kurzlebige Betriebssystemdatenträger: Unterstützt
InfiniBand: Unterstützt, GPUDirect-RDMA, 8 x 200 Gigabit HDR
Nvidia NVLink Interconnect: Unterstützt
Geschachtelte Virtualisierung: Nicht unterstützt

Die NDm A100 v4-Serie unterstützt die folgenden Kernelversionen:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04: 5.4.0-1043-azure
Ubuntu 20.04: 5.4.0-1046-azure

Größe vCPU Memory: GiB Temporärer Speicher (SSD): GiB GPU GPU-Arbeitsspeicher: GiB Max. Anzahl Datenträger Maximaler Durchsatz des Datenträgers ohne Cache: IOPS/MBps Max. Netzwerkbandbreite Maximale Anzahl NICs
Standard_ND96amsr_A100_v4 96 1.900 6400 8 A100 80-GB-GPUs (NVLink 3.0) 80 32 80.000/800 24.000 MBit/s 8

Definitionen der Größentabelle

  • Speicherkapazität wird in GiB-Einheiten oder 1.024^3 Bytes angezeigt. Beachten Sie beim Vergleich von in GB (1000^3 Bytes) gemessenen Datenträgern mit in GiB (1024^3) gemessenen Datenträgern, dass die in GiB angegebenen Kapazitätszahlen kleiner erscheinen können. Beispiel: 1.023 GiB = 1.098,4 GB.

  • Der Datenträgerdurchsatz wird in E/A-Vorgängen pro Sekunde (Input/Output Operations Per Second, IOPS) und MB/s gemessen, wobei MB/s = 10^6 Bytes/Sekunde beträgt.

  • Datenträger können mit oder ohne Cache betrieben werden. Beim Datenträgerbetrieb mit Cache ist der Hostcachemodus auf ReadOnly oder ReadWrite festgelegt. Beim Datenträgerbetrieb ohne Cache ist der Hostcachemodus auf None festgelegt.

  • Weitere Informationen, wie Sie die beste Speicherleistung für Ihre VMs erzielen können, finden Sie unter Leistung von virtuellen Computern und Datenträgern.

  • Expected network bandwidth (Erwartete Netzwerkbandbreite) ist die maximal aggregierte Bandbreite pro VM-Typ, die netzwerkadapterübergreifend für alle Ziele zugeordnet ist. Weitere Informationen finden Sie unter Netzwerkdurchsatz virtueller Computer.

    Die Einhaltung von Obergrenzen wird nicht garantiert. Grenzwerte dienen als Richtlinien bei der Auswahl der richtigen VM-Art für die jeweilige Anwendung. Die tatsächliche Netzwerkleistung hängt von mehreren Faktoren ab. Hierzu zählen beispielsweise Netzwerküberlastung, Anwendungslasten und die Netzwerkeinstellungen. Informationen zum Optimieren des Netzwerkdurchsatzes finden Sie unter Optimieren des Netzwerkdurchsatzes für virtuelle Azure-Computer. Unter Umständen muss eine bestimmte Version ausgewählt oder der virtuelle Computer optimiert werden, um die erwartete Netzwerkbandbreite unter Linux oder Windows zu erzielen. Weitere Informationen finden Sie unter Testen der Bandbreite/des Durchsatzes (NTTTCP).

Weitere Größen und Informationen

Preisrechner: Preisrechner

Weitere Informationen zu Datenträgertypen finden Sie unter Welche Datenträgertypen stehen in Azure zur Verfügung?

Nächste Schritte

Weitere Informationen dazu, wie Sie mit Azure-Computeeinheiten (ACU) die Computeleistung von Azure-SKUs vergleichen können.