Share via


Behandeln von Problemen mit dem virtuellen Azure Data Science-Computer

In diesem Artikel wird erläutert, wie Sie Fehler oder Fehler finden, die bei Verwendung des virtuellen Azure Data Science-Computers auftreten können.

Ubuntu

Korrektur der GPU beim NVIDIA A100-GPU-Chip – Azure NDasrv4-Serie

Der virtuelle Computer der ND A100 v4-Serie ist ein Flaggschiff der Azure GPU-Familie. Es behandelt High-End Deep Learning-Schulungen und eng gekoppelte, skalierte und skalierte HPC-Workloads.

Aufgrund seiner einzigartigen Architektur benötigt es ein anderes Setup für Workloads mit hohem Bedarf, um von der GPU-Beschleunigung mit TensorFlow- oder PyTorch-Frameworks zu profitieren.

Wir entwickeln out-of-the-box-Unterstützung für ND A100-Computer-GPUs. Unterdessen kann Ihre GPU Ubuntu verarbeiten, wenn Sie den NVIDIA Fabric Manager hinzufügen und die Treiber aktualisieren. Führen Sie die folgenden Schritte am Terminal aus:

  1. Fügen Sie das NVIDIA-Repository hinzu, um Treiber zu installieren oder zu aktualisieren – finden Sie schrittweise Anleitungen zu dieser Ressource.

  2. [OPTIONAL] Sie können Ihre CUDA-Treiber auch aus diesem Repository aktualisieren.

  3. Installieren Sie die NVIDIA Fabric Manager-Treiber:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. Starten Sie Ihren virtuellen Computer neu (um die Treiber vorzubereiten)

  5. Aktivieren und starten Sie den neu installierten NVIDIA Fabric Manager-Dienst:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

Führen Sie dieses Codebeispiel aus, um zu überprüfen, ob Ihre GPU und Ihre Treiber funktionieren:

systemctl status nvidia-fabricmanager.service

Dieser Screenshot zeigt den Fabric Manager-Dienst, der ausgeführt wird:

Screenshot des ausgeführten Fabric Manager-Diensts.

Fehler beim Herstellen einer Verbindung mit der Desktopumgebung

Wenn Sie eine Verbindung mit dem DSVM über SSH-Terminal herstellen können, aber keine Verbindung über x2go herstellen können, hat x2go möglicherweise die falsche Sitzungstypeinstellung. Um eine Verbindung mit der DSVM-Desktopumgebung herzustellen, legen Sie den Sitzungstyp in x2go/session preferences/session auf XFCE fest. Andere Desktopumgebungen werden derzeit nicht unterstützt.

Falsche Darstellung von Schriftarten bei einer Verbindung mit der DSVM über x2go

Eine bestimmte x2go-Sitzungseinstellung kann dazu führen, dass einige der Schriftarten falsch aussehen, wenn Sie eine Verbindung mit x2go herstellen. Deaktivieren Sie vor der Verbindung mit dem DSVM das Kontrollkästchen "Anzeige-DPI festlegen" auf der Registerkarte "Eingabe/Ausgabe" des Dialogfelds "Sitzungseinstellungen".

Aufforderung zur Eingabe eines unbekannten Kennworts

Sie können die DSVM-Authentifizierungstypeinstellung auf öffentlichen SSH-Schlüssel festlegen. Dies wird anstelle der Kennwortauthentifizierung empfohlen. Sie erhalten kein Kennwort, wenn Sie SSH Public Key verwenden. In einigen Szenarien fordern einige Anwendungen jedoch weiterhin ein Kennwort an. Führen Sie die Ausführung aus sudo passwd <user_name> , um ein neues Kennwort für einen bestimmten Benutzer zu erstellen. Mit sudo passwd können Sie ein neues Kennwort für den Stammbenutzer erstellen.

Wenn Sie diesen Befehl ausführen, werden die SSH-Konfiguration nicht geändert, und die zulässigen Anmeldemechanismen werden wie folgt geändert Standard.

Aufforderung zur Eingabe eines Kennworts beim Ausführen eines sudo-Befehls

Wenn Sie einen sudo Befehl auf einem Ubuntu-Computer ausführen, erhalten Sie möglicherweise eine Anforderung, Ihr Kennwort wiederholt einzugeben, um zu überprüfen, ob Sie der angemeldete Benutzer sind. Dies wird standardmäßiges Ubuntu-Verhalten erwartet. In manchen Situationen ist eine wiederholte Authentifizierung jedoch nicht notwendig und eher lästig.

Um die erneute Authentifizierung für die meisten Fälle zu deaktivieren, können Sie diesen Befehl in einem Terminal ausführen:

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

Nachdem Sie das Terminal neu gestartet haben, fordert sudo keine weitere Anmeldung auf, und es wird die Authentifizierung von Ihrer Sitzungsanmeldung als ausreichend betrachtet.

Docker kann nicht als nichtroot-Benutzer verwendet werden.

Um Docker als nichtroot-Benutzer zu verwenden, benötigt Ihr Benutzer die Mitgliedschaft in der Docker-Gruppe. Der getent group docker Befehl gibt eine Liste der Benutzer zurück, die zu dieser Gruppe gehören. Um Ihren Benutzer der Gruppe „docker“ hinzuzufügen, führen Sie den Befehl sudo usermod -aG docker $USER aus.

Docker-Container können nicht mit dem externen Netzwerk interagieren

Standardmäßig fügt Docker dem sogenannten "Bridge Network" neue Container hinzu: 172.17.0.0/16. Das Subnetz dieses Brückennetzwerks könnte sich mit dem Subnetz Ihres DSVM oder mit einem anderen privaten Subnetz überschneiden, das Sie in Ihrem Abonnement haben. In diesem Fall ist keine Netzwerkkommunikation zwischen dem Host und dem Container möglich. Darüber hinaus können Webanwendungen, die im Container ausgeführt werden, nicht erreicht werden, und der Container kann keine Pakete von apt aktualisieren.

Um das Problem zu beheben, müssen Sie Docker neu konfigurieren, um einen IP-Adressraum für das Brückennetzwerk zu verwenden, das sich nicht mit anderen Netzwerken Ihres Abonnements überlappt. Wenn Sie z. B. hinzufügen

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

/etc/docker/daemon.json der JSON-Datei weist Docker dem Brückennetzwerk ein anderes Subnetz zu. Sie müssen die Datei mit sudo bearbeiten, z. B. durch Ausführen sudo nano /etc/docker/daemon.json.

Führen Sie nach der Änderung den service docker restart Docker-Dienst aus, um den Docker-Dienst neu zu starten. Um festzustellen, ob Ihre Änderungen wirksam wurden, kann ausgeführt werden docker network inspect bridge. Der Wert unter IPAM. Config.Subnet sollte dem zuvor angegebenen Adresspool entsprechen.

GPU(s) im Docker-Container nicht verfügbar

Die auf dem DSVM installierte Docker-Ressource unterstützt standardmäßig GPUs. Diese Unterstützung erfordert jedoch bestimmte Voraussetzungen.

  • Die VM-Größe des DSVM muss mindestens eine GPU enthalten.
  • Wenn Sie Ihren Docker-Container mit docker runstarten, müssen Sie einen Parameter "--gpus " hinzufügen, z --gpus all. B. .
  • VM-Größen, die NVIDIA A100 GPUs enthalten, erfordern weitere Softwarepakete, insbesondere den NVIDIA Fabric Manager. Diese Pakete sind möglicherweise nicht in Ihrem Image vorinstalliert.

Windows

Virtual Machine Generation 2 (Gen 2) funktioniert nicht

Wenn Sie versuchen, data Science VM basierend auf virtual Machine Generation 2 (Gen 2) zu erstellen, schlägt dies fehl.

Derzeit Standard wir Bilder für virtuelle Data Science-Computer (DSVMs) basierend auf Windows 2019 Server bereitstellen, nur für DSVMs der Generation 1. Gen 2 wird noch nicht unterstützt, aber wir planen, sie in Naher Zukunft zu unterstützen.

Zugreifen auf SQL-Server

Wenn Sie versuchen, eine Verbindung mit der vorinstallierten SQL Server-Instanz herzustellen, tritt möglicherweise ein Fehler beim Anmelden auf. Um erfolgreich eine Verbindung mit der SQL Server-Instanz herzustellen, müssen Sie das Programm ausführen, mit dem Sie eine Verbindung herstellen möchten , z. B. SQL Server Management Studio (SSMS) im Administratormodus. Der Administratormodus ist erforderlich, da bei DSVM-Standardverhalten nur Administratoren eine Verbindung herstellen können.

Hyper-V funktioniert nicht

Wie erwartet funktioniert Hyper-V zunächst nicht unter Windows. Um eine optimale Leistung zu erzielen, haben wir einige Dienste deaktiviert. So aktivieren Sie Hyper-V

  1. Öffnen Sie die Suchleiste auf Ihrer Windows-DSVM.
  2. Geben Sie „Dienste“ ein.
  3. Legen Sie alle Hyper-V-Dienste auf „Manuell“ fest.
  4. Legen Sie „Verwaltung virtueller Hyper-V-Computer“ auf „Automatisch“ fest.

Ihr Bildschirm sollte dann wie folgt aussehen:

Screenshot des ausgeführten Hyper-V-Diensts.