Tools für maschinelles Lernen und Data Science in virtuellen Azure-Data Science Virtual Machines

Artikel
04/24/2024

Azure Data Science VM-Instanzen (DSVMs) verfügen über ein umfangreiches Angebot an Tools und Bibliotheken für maschinelles Lernen. Diese Ressourcen sind in beliebten Sprachen verfügbar, z. B. Python, R und Julia.

Die DSVM unterstützt diese ML-Tools und Bibliotheken:

Azure Machine Learning SDK for Python

Die vollständige Referenz finden Sie unter Azure Machine Learning SDK für Python.

Kategorie	Wert
Was ist das?	Sie können den Azure Machine Learning-Clouddienst zum Entwickeln und Bereitstellen von Machine Learning-Modellen verwenden. Sie können das Python SDK verwenden, um Ihre Modelle beim Erstellen, Trainieren, Skalieren und Verwalten nachzuverfolgen. Stellen Sie Modelle als Container bereit, und führen Sie sie in der Cloud, lokal oder in Azure IoT Edge aus.
Unterstützte Editionen	Windows (Conda-Umgebung: AzureML), Linux (Conda-Umgebung: py36)
Typische Verwendung	Allgemeine Plattform für maschinelles Lernen
Konfiguration/Installation	Installiert mit GPU-Unterstützung
Verwendung/Ausführung	Als Python SDK und in der Azure CLI. Aktivieren Sie die Conda-Umgebung `AzureML` für die Windows-Edition oder aktivieren Sie `py36` für die Linux-Edition.
Link zu Beispielen	Exemplarische Jupyter-Notebooks finden Sie im Verzeichnis `AzureML` unter „notebooks“.

H2O

Category	Wert
Was ist das?	Eine Open-Source-KI-Plattform für verteiltes, schnelles und skalierbares maschinelles In-Memory-Lernen.
Unterstützte Versionen	Linux
Typische Verwendung	Universelles verteiltes und skalierbares maschinelles Lernen
Konfiguration/Installation	H2O ist unter `/dsvm/tools/h2o` installiert.
Verwendung/Ausführung	Stellen Sie mithilfe von X2Go eine Verbindung zur VM her. Starten Sie ein neues Terminal, und führen Sie `java -jar /dsvm/tools/h2o/current/h2o.jar` aus. Stellen Sie dann über einen Webbrowser eine Verbindung mit `http://localhost:54321` her.
Link zu Beispielen	Beispiele finden Sie auf der VM in Jupyter im Verzeichnis `h2o`.

Es gibt mehrere weitere Machine Learning-Bibliotheken auf DSVMs, z. B. das beliebte scikit-learn-Paket, das Teil der Anaconda Python-Distribution für DSVMs ist. Führen Sie die entsprechenden Paket-Manager aus, um die Liste mit den verfügbaren Paketen für Python, R und Julia zu erhalten.

LightGBM

Category	Wert
Was ist das?	Ein schnelles, verteiltes Gradient Boosting-Hochleistungsframework (GBDT, GBRT, GBM oder MART) auf der Grundlage von Entscheidungsstrukturalgorithmen. ML-Tasks – Priorisierung, Klassifizierung usw. – verwenden sie.
Unterstützte Versionen	Windows, Linux
Typische Verwendung	Allgemeines Gradient-Boosted-Framework
Konfiguration/Installation	LightGBM ist unter Windows als Python-Paket installiert. Unter Linux befindet sich die in der Befehlszeile ausführbare Datei in `/opt/LightGBM/lightgbm`. Das R-Paket und Python-Pakete sind installiert.
Link zu Beispielen	Leitfaden zu LightGBM

Rattle

Category	Wert
Was ist das?	Eine grafische Benutzeroberfläche für Data Mining, das R verwendet.
Unterstützte Editionen	Windows, Linux
Typische Verwendung	Allgemeines UI-basiertes Data Mining-Tool für R
Verwendung/Ausführung	Als Benutzeroberflächentool. Starten Sie unter Windows eine Eingabeaufforderung, und führen Sie R und anschließend `rattle()` (innerhalb von R) aus. Stellen Sie unter Linux eine Verbindung über X2Go her, starten Sie ein Terminal, führen Sie R aus, und führen Sie dann `rattle()` in R aus.
Link zu Beispielen	Rattle

Vowpal Wabbit

Category	Wert
Was ist das?	Eine schnelle Open-Source-basierte Out-of-Core-Lernsystembibliothek
Unterstützte Editionen	Windows, Linux
Typische Verwendung	Allgemeine Bibliothek für maschinelles Lernen
Konfiguration/Installation	Windows: MSI-Installationsprogramm Linux: apt-get
Verwendung/Ausführung	Als pfadbasiertes Befehlszeilentool (`C:\Program Files\VowpalWabbit\vw.exe` unter Windows, `/usr/bin/vw` unter Linux)
Link zu Beispielen	Beispiele für VowPal Wabbit

Weka

Category	Wert
Was ist das?	Eine Sammlung von Machine Learning-Algorithmen für Data Mining-Aufgaben. Sie können die Algorithmen entweder direkt anwenden oder aus Ihrem eigenen Java-Code aufrufen. Weka enthält Tools für Datenvorverarbeitung, Klassifizierung, Regression, Clustering, Zuordnungsregeln und Visualisierung.
Unterstützte Editionen	Windows, Linux
Typische Verwendung	Allgemeines Machine Learning-Tool
Verwendung/Ausführung	Unter Windows finden Sie Weka im Startmenü. Unter Linux finden Sie Weka nach der Anmeldung mit X2Go unter Anwendungen>Entwicklung>Weka.
Link zu Beispielen	Beispiele für Weka

XGBoost

Category	Wert
Was ist das?	Schnelle, portable und verteilte Gradient-Boosted-Bibliothek (GBDT, GBRT oder GBM) für Python, R, Java, Scala, C++ und mehr. Sie eignet sich für einen einzelnen Computer und in Apache Hadoop und Spark.
Unterstützte Editionen	Windows, Linux
Typische Verwendung	Allgemeine Bibliothek für maschinelles Lernen
Konfiguration/Installation	Installiert mit GPU-Unterstützung
Verwendung/Ausführung	Als Python-Bibliothek (2.7 und 3.6 und höher ), R-Paket und pfadbasiertes Befehlszeilentool (`C:\dsvm\tools\xgboost\bin\xgboost.exe` für Windows und `/dsvm/tools/xgboost/xgboost` für Linux)
Links zu Beispielen	Beispiele stehen auf dem virtuellen Computer unter `/dsvm/tools/xgboost/demo` (Linux) bzw. unter `C:\dsvm\tools\xgboost\demo` (Windows) zur Verfügung.