Referenz: Data Science Virtual Machine für Ubuntu (Linux)

Dieses Dokument enthält eine Liste der verfügbaren Tools auf Ihrem virtuellen Ubuntu Data Science-Computer (DSVM).

Deep Learning-Bibliotheken

PyTorch

PyTorch ist ein beliebtes wissenschaftliches Computing-Framework mit breiter Unterstützung für Maschinelle Lernalgorithmen. Wenn Ihr Computer über eine integrierte GPU verfügt, kann er diese GPU verwenden, um das Deep Learning zu beschleunigen. PyTorch ist in der py38_pytorch Umgebung verfügbar.

H2O

H2O ist eine schnelle, verteilte In-Memory-Plattform für Machine Learning und Predictive Analytics. Ein Python-Paket ist sowohl in der Stammumgebung als auch der py35 Anaconda-Umgebung installiert. Ein R-Paket ist ebenfalls installiert.

Führen Sie java -jar /dsvm/tools/h2o/current/h2o.jar aus, um H2O über die Befehlszeile zu öffnen. Sie können verschiedene verfügbareBefehlszeilenoptionen konfigurieren. Navigieren Sie zur Flussweb-UI, um zu http://localhost:54321 beginnen. JupyterHub bietet Beispielnotizbücher.

TensorFlow

TensorFlow ist die Google Deep Learning-Bibliothek. Es handelt sich dabei um eine Open-Source-Softwarebibliothek für numerische Berechnungen unter Verwendung von Datenflussdiagrammen. Wenn Ihr Computer über eine integrierte GPU verfügt, kann sie diese GPU verwenden, um das Deep Learning zu beschleunigen. TensorFlow ist in der Conda-Umgebung py38_tensorflow verfügbar.

Python

Der Data Science Virtual Machine (DSVM) verfügt über mehrere vorinstallierte Python-Umgebungen mit Python Version 3.8 oder Python, Version 3.6. Führen Sie die Ausführung conda env list in einem Terminalfenster aus, um die vollständige Liste der installierten Umgebungen anzuzeigen.

Jupyter

Der DSVM verfügt auch über Jupyter, eine Codefreigabe- und Codeanalyseumgebung. Jupyter wird auf dem DSVM in diesen Aromen installiert:

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Um Jupyter Lab zu starten, öffnen Sie Jupyter im Anwendungsmenü, oder wählen Sie das Desktopsymbol aus. Sie können auch über eine Befehlszeile ausführen jupyter lab , um Jupyter Lab zu öffnen.

Öffnen Sie eine Befehlszeile, und führen Sie jupyter notebook aus, um ein Jupyter Notebook zu öffnen.

Um Jupyter Hub zu öffnen, öffnen Sie https://< VM DNS-Name oder IP-Adresse>:8000/ in einem Browser. Sie müssen Ihren lokalen Linux-Benutzernamen und Ihr Kennwort angeben.

Hinweis

Sie können alle Zertifikatwarnungen ignorieren.

Hinweis

Für die Ubuntu-Images wird firewall Port 8000 standardmäßig geöffnet, wenn die VM bereitgestellt wird.

Apache Spark – eigenständige Instanz

Eine eigenständige Instanz von Apache Spark wird auf dem Linux DSVM vorinstalliert, um Spark-Anwendungen lokal zu entwickeln, bevor Sie diese Anwendungen auf großen Clustern testen und bereitstellen.

Sie können PySpark-Programme über den Jupyter-Kernel ausführen. Wenn Jupyter gestartet wird, wählen Sie die Schaltfläche "Neu " aus. Eine Liste der verfügbaren Kernel sollte sichtbar werden. Sie können Spark-Anwendungen mit der Python-Sprache erstellen, wenn Sie den Spark - Python-Kernel auswählen. Sie können auch eine Python-IDE verwenden , z. B. VS. Code oder PyCharm – zum Erstellen Ihres Spark-Programms.

In dieser eigenständigen Instanz wird der Spark-Stapel innerhalb des aufrufenden Clientprogramms ausgeführt. Dieses Feature erleichtert das Beheben von Problemen im Vergleich zur Entwicklung in einem Spark-Cluster.

IDEs und Editoren

Sie haben die Wahl zwischen mehreren Code-Editoren, einschließlich VS. Code, PyCharm, IntelliJ, vi/Vim oder Emacs.

VS.Code, PyCharm und IntelliJ sind grafische Editoren. Sie müssen bei einem grafischen Desktop angemeldet sein, um sie verwenden zu können. Verwenden Sie zum Öffnen die Desktop- und Anwendungsmenüverknüpfungen.

Vim und Emacs sind textbasierte Editoren. Auf Emacs erleichtert das ESS-Add-On-Paket die Arbeit mit R im Emacs-Editor. Weitere Informationen finden Sie auf der ESS-Website.

Datenbanken

Grafischer SQL-Client

SQuirrel SQL, ein grafischer SQL-Client, kann eine Verbindung mit verschiedenen Datenbanken herstellen, z. B. Microsoft SQL Server oder MySQL, und SQL-Abfragen ausführen. Die schnellste Möglichkeit zum Öffnen von SQuirrel SQL ist die Verwendung des Anwendungsmenüs aus einer grafischen Desktopsitzung (z. B. über den X2Go-Client).

Richten Sie vor der anfänglichen Verwendung Ihre Treiber und Datenbankaliasen ein. Die TREIBER FINDEN Sie unter /usr/share/java/providers.

Weitere Informationen finden Sie in der SQuirrel SQL-Ressource .

Befehlszeilentools für den Zugriff auf Microsoft SQL Server

Das ODBC-Treiberpaket für SQL Server enthält auch zwei Befehlszeilentools:

  • bcp: Das bcp-Tool kopiert Massendaten zwischen einer Instanz von Microsoft SQL Server und einer Datendatei in einem vom Benutzer angegebenen Format. Das Tool bcp kann zum Importieren großer Mengen von neuen Zeilen in SQL Server-Tabellen oder zum Exportieren von Daten aus Tabellen in Datendateien verwendet werden. Zum Importieren von Daten in eine Tabelle müssen Sie eine für diese Tabelle erstellte Formatdatei verwenden. Sie müssen die Struktur der Tabelle und die Datentypen verstehen, die für die zugehörigen Spalten gültig sind.

Weitere Informationen finden Sie unter Verbinden ing mit bcp.

  • sqlcmd: Sie können Transact-SQL-Anweisungen mit dem sqlcmd-Tool eingeben. Sie haben auch die Möglichkeit, Systemprozeduren und Skriptdateien an der Eingabeaufforderung einzugeben. Bei diesem Tool wird ODBC genutzt, um Transact-SQL-Batches auszuführen.

    Weitere Informationen finden Sie unter Verbinden ing mit sqlcmd.

    Hinweis

    Es gibt einige Unterschiede in diesem Tool zwischen den Linux- und Windows-Plattformversionen. Ausführliche Informationen hierzu erhalten Sie in der Dokumentation.

Bibliotheken für den Datenbankzugriff

R- und Python-Bibliotheken stehen für den Datenbankzugriff zur Verfügung:

  • In R können Sie die RODBC-Dplyr-Pakete verwenden, um SQL-Anweisungen auf dem Datenbankserver abzufragen oder auszuführen.
  • In Python bietet die Pyodbc-Bibliothek Datenbankzugriff mit ODBC als zugrunde liegende Ebene.

Azure-Tools

Diese Azure-Tools werden auf dem virtuellen Computer installiert:

  • Azure CLI: Mit der Befehlszeilenschnittstelle in Azure können Sie Azure-Ressourcen über Shellbefehle erstellen und verwalten. Geben Sie azure help ein, um die Azure-Tools zu öffnen. Weitere Informationen finden Sie auf der Dokumentationsseite der Azure CLI.

  • Azure Storage-Explorer: Azure Storage-Explorer ist ein grafisches Tool, mit dem Sie die Objekte durchsuchen können, die Sie in Ihrem Azure-Speicherkonto gespeichert haben, und um Daten in und aus Azure-Blobs hochzuladen und herunterzuladen. Sie können über das Symbol der Desktopverknüpfung auf den Storage-Explorer zugreifen. Sie können sie auch über eine Shell-Eingabeaufforderung öffnen, wenn Sie "StorageExplorer" eingeben. Sie müssen über einen X2Go-Client angemeldet sein oder die X11-Weiterleitung eingerichtet haben.

  • Azure-Bibliotheken: Dies sind einige der vorinstallierten Bibliotheken:

    • Python: Python bietet die azure-, azureml-, pydocumentdb- und pyodbc Azure-bezogenen Bibliotheken an. Mit den ersten drei Bibliotheken können Sie auf Azure-Speicherdienste, Azure Machine Learning und Azure Cosmos DB (eine NoSQL-Datenbank in Azure) zugreifen. Die vierte Bibliothek, Pyodbc (zusammen mit dem Microsoft ODBC-Treiber für SQL Server), ermöglicht den Zugriff auf SQL Server, Azure SQL-Datenbank und Azure Synapse Analytics von Python über eine ODBC-Schnittstelle. Geben Sie die Pip-Liste ein , um alle aufgelisteten Bibliotheken anzuzeigen. Führen Sie diesen Befehl in den Python 2.7- und 3.5-Umgebungen aus.
    • R: Azure Machine Learning und RODBC sind die Azure-bezogenen Bibliotheken in R.
    • Java: Verzeichnis /dsvm/sdk/AzureSDKJava hat die Liste der Azure Java-Bibliotheken finden Sie im Verzeichnis "/dsvm/sdk/AzureSDKJava " auf der VM. Die wichtigsten Bibliotheken sind Azure-Speicher- und -Verwaltungs-APIs, Azure Cosmos DB und JDBC-Treiber für SQL Server.

Azure Machine Learning

Mit dem vollständig verwalteten Azure Machine Learning-Clouddienst können Sie Predictive Analytics-Lösungen erstellen, bereitstellen und freigeben. Sie können Ihre Experimente und Modelle im Azure Machine Learning Studio erstellen. Besuchen Sie Microsoft Azure Machine Learning , um über einen Webbrowser auf dem virtuellen Data Science-Computer darauf zuzugreifen.

Nachdem Sie sich bei Azure Machine Learning Studio angemeldet haben, haben Sie Zugriff auf einen Zeichenbereich zum Experimentieren, in dem Sie einen logischen Ablauf für die Machine Learning-Algorithmen erstellen können. Sie haben auch Zugriff auf ein Jupyter-Notizbuch, das in Azure Machine Learning gehostet wird. Dieses Notizbuch kann nahtlos mit den Experimenten im Azure Machine Learning Studio arbeiten.

Um die von Ihnen erstellten Machine Learning-Modelle zu operationalisieren, schließen Sie sie in eine Webdienstschnittstelle ein. Die Operationalisierung des Machine Learning-Modells ermöglicht Es Clients, die in einer beliebigen Sprache geschrieben wurden, Vorhersagen aus diesen Modellen aufzurufen. Weitere Informationen finden Sie in der Dokumentation zu Machine Learning.

Sie können Ihre Modelle auch in R oder Python auf der VM erstellen und diese dann in der Produktion in Azure Machine Learning bereitstellen. Wir haben Bibliotheken in R (AzureML) und Python (azureml) installiert, um diese Funktionalität zu aktivieren.

Hinweis

Wir haben diese Anweisungen für die Windows-Version des virtuellen Data Science-Computers geschrieben. Die Anweisungen behandeln jedoch Azure Machine Learning-Modellbereitstellungen auf der Linux-VM.

Machine Learning-Tools

Der virtuelle Computer verfügt über vorkompilierte Machine Learning-Tools und -Algorithmus, die alle lokal installiert sind. Dazu gehören:

  • Vowpal Wabbit: Ein schneller Online-Lernalgorithmus

  • xgboost: Dieses Tool bietet optimierte, heraufgesttärkte Strukturalgorithmen.

  • Rattle: Ein R-basiertes grafisches Tool zum einfachen Durchsuchen und Modellieren von Daten

  • Python: Anaconda Python wird als Paket mit Machine Learning-Algorithmen für Bibliotheken wie Scikit-learn bereitgestellt. Sie können andere Bibliotheken mit dem pip install Befehl installieren.

  • LightGBM: Ein schnelles, verteiltes, leistungsstarkes Farbverlaufs-Boostframework basierend auf Entscheidungsstrukturalgorithmen

  • R: Eine umfangreiche Bibliothek von Maschinellen Lernfunktionen ist für R verfügbar. Vorinstallierte Bibliotheken umfassen lm, glm, randomForest und rpart. Sie können andere Bibliotheken mit diesem Befehl installieren:

    install.packages(<lib name>)
    

Hier finden Sie weitere Informationen zu den ersten drei Maschinellen Lerntools in der Liste.

Vowpal Wabbit

Vowpal Wabbit ist ein maschinelles Lernsystem, das verwendet

  • aktiv
  • allreduce
  • Hashing
  • interaktives Lernen
  • learning2search
  • Online
  • Ermäßigungen

Techniken.

Verwenden Sie diese Befehle, um das Tool in einem einfachen Beispiel auszuführen:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Dieses Verzeichnis bietet andere, größere Demos. Besuchen Sie diesen Abschnitt von GitHub und das Wabbit-Wiki Vowpal für weitere Informationen zu Vowpal Wabbit.

Xgboost

Die xgboost-Bibliothek wurde für Boosted (Tree)-Algorithmen entworfen und optimiert. Die xgboost-Bibliothek verschiebt die Berechnungsgrenzwerte von Computern auf die Extreme, die für die präzise, tragbare und skalierbare Hochskalierung von Baumaufsträngen erforderlich sind.

Die xgboost-Bibliothek wird sowohl als Befehlszeilenressource als auch als R-Bibliothek bereitgestellt. Um diese Bibliothek in R zu verwenden, können Sie R in die Shell eingeben, um eine interaktive R-Sitzung zu starten und die Bibliothek zu laden.

Dieses einfache Beispiel zeigt, wie xgboost in einer R-Eingabeaufforderung ausgeführt wird:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Führen Sie die folgenden Befehle in der Shell aus, um die xgboost-Befehlszeile auszuführen:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Weitere Informationen zu xgboost finden Sie auf der xgboost-Dokumentationsseite und dem GitHub-Repository.

Rattle

Rattle (RAnalytical Tool To Learn Easily) verwendet GUI-basierte Durchsuchungs- und Modellierungsvorgänge für Daten. Es

  • stellt statistische und visuelle Zusammenfassungen von Daten dar.
  • Transformiert Daten, die leicht modelliert werden können
  • erstellt sowohl unbeaufsichtigte als auch überwachte Modelle aus den Daten.
  • stellt die Leistung von Modellen grafisch dar.
  • Bewertungen neuer Datensätze

Außerdem wird R-Code generiert, der Rattle-Vorgänge in der Benutzeroberfläche repliziert. Sie können diesen Code direkt in R ausführen oder als Ausgangspunkt für die weitere Analyse verwenden.

Zum Ausführen von Rattle müssen Sie in einer grafischen Desktopanmeldungssitzung arbeiten. Geben Sie im Terminal R ein, um die R-Umgebung zu öffnen. Geben Sie an der R-Eingabeaufforderung diesen Befehl ein:

library(rattle)
rattle()

Anschließend wird eine grafische Oberfläche mit einer Reihe von Registerkarten geöffnet. Diese Schnellstartschritte in Rattle verwenden einen Beispieldatensatz zum Erstellen eines Modells. In einigen schritten erhalten Sie Aufforderungen, bestimmte, erforderliche R-Pakete, die noch nicht im System vorhanden sind, automatisch zu installieren und zu laden.

Hinweis

Wenn Sie nicht über Zugriffsberechtigungen zum Installieren des Pakets im Systemverzeichnis verfügen (Standardeinstellung), stellen Sie möglicherweise eine Eingabeaufforderung in Ihrem R-Konsolenfenster fest, um Pakete in Ihrer persönlichen Bibliothek zu installieren. Antwort y , wenn diese Eingabeaufforderungen auftreten.

  1. Wählen Sie Execute.
  2. Es wird ein Dialogfeld angezeigt, in dem Sie gefragt werden, ob Sie den Beispieldatensatz für Wetter verwenden möchten. Wählen Sie "Ja " aus, um das Beispiel zu laden.
  3. Wählen Sie die Registerkarte Model (Modell) aus
  4. Wählen Sie "Ausführen" aus, um eine Entscheidungsstruktur zu erstellen.
  5. Wählen Sie "Zeichnen" aus, um die Entscheidungsstruktur anzuzeigen.
  6. Wählen Sie die Gesamtstrukturoption aus, und wählen Sie "Ausführen" aus, um eine zufällige Gesamtstruktur zu erstellen.
  7. Wählen Sie die Registerkarte "Auswerten" aus.
  8. Wählen Sie die Option "Risiko " aus, und wählen Sie "Ausführen" aus, um zwei kumulierte Leistungsdiagramme (Risiko) anzuzeigen.
  9. Wählen Sie die Registerkarte "Protokoll " aus, um den generierten R-Code für die vorherigen Vorgänge anzuzeigen.
    • Aufgrund eines Fehlers in der aktuellen Version von Rattle müssen Sie ein # Zeichen vor dem Exportieren dieses Protokolls in den Text des Protokolls einfügen.
  10. Wählen Sie die Schaltfläche "Exportieren " aus, um die R-Skriptdatei mit dem Namen weather_script zu speichern. R, an den Startordner

Sie können Rattle und R beenden. Nun können Sie das generierte R-Skript bearbeiten. Sie können das Skript auch wie folgt verwenden und jederzeit ausführen, um alles zu wiederholen, was in der Benutzeroberfläche von Rattle ausgeführt wurde. Für Anfänger in R bietet sich dies insbesondere für schnelle Analyse und maschinelles Lernen in einer einfachen grafischen Benutzeroberfläche, während code automatisch in R zum Ändern oder Lernen generiert wird.

Nächste Schritte

Für weitere Fragen sollten Sie ein Supportticket erstellen.