Unterstützte Datenplattformen für Data Science Virtual Machine

Mit einer Data Science VM (DSVM) können Sie Analyseressourcen für ein breites Spektrum von Datenplattformen erstellen. Neben Schnittstellen für Remotedatenplattformen bietet die DSVM eine lokale Instanz für eine schnelle Entwicklung und Prototypenerstellung.

Die DSVM unterstützt diese Datenplattformtools:

SQL Server Developer Edition

Category Wert
Was ist das? Eine lokale Instanz einer relationalen Datenbank
Unterstützte DSVM-Editionen Windows 2019, Linux (SQL Server 2019)
Typische Verwendung
  • Schnelle lokale Entwicklung mit einem kleineren Dataset
  • Ausführen von R (datenbankintern)
Links zu Beispielen
  • In die SQL-Datenbank wird ein kleiner Teil des New York City-Datasets geladen:
    nyctaxi
  • Ein Jupyter-Beispiel zur Veranschaulichung von Microsoft Machine Learning Server und datenbankinternen Analysen finden Sie hier:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Verwandte Tools auf der DSVM
  • SQL Server Management Studio
  • ODBC/JDBC-Treiber
  • pyodbc, RODBC

Hinweis

Die Developer-Edition von SQL Server kann nur für Entwicklungs- und Testzwecke verwendet werden. Für die Verwendung in einer Produktionsumgebung benötigen Sie eine Lizenz oder einen der virtuellen SQL Server-Computer.

Hinweis

Der Support für Machine Learning Server (eigenständig) endete am 1. Juli 2021. Er wird nach dem 30. Juni aus den DSVM-Images entfernt. Vorhandene Bereitstellungen haben weiterhin Zugriff auf die Software, aber aufgrund des erreichten Enddatums für den Support wird er seit dem 1. Juli 2021 nicht mehr unterstützt.

Hinweis

Wir werden SQL Server Developer Edition bis Ende November 2021 aus DSVM-Images entfernen. Für vorhandene Bereitstellungen ist weiterhin SQL Server Developer Edition installiert. Wenn Sie in neuen Bereitstellungen Zugriff auf die SQL Server Developer Edition benötigen, können Sie die SQL Server Developer Edition über die Docker-Unterstützung installieren und verwenden. Weitere Informationen finden Sie unter Schnellstart: Ausführen von SQL Server-Containerimages mit Docker.

Windows

Setup

Der Datenbankserver ist bereits vorkonfiguriert, und für die Windows-Dienste für SQL Server (z. B. SQL Server (MSSQLSERVER)) ist automatische Ausführung festgelegt. Der einzige manuelle Schritt besteht darin, datenbankinterne Analysen mithilfe von Microsoft Machine Learning Server zu aktivieren. Sie können die Analyse aktivieren, indem Sie den folgenden Befehl als einmalige Aktion in SQL Server Management Studio (SSMS) ausführen. Führen Sie diesen Befehl aus, nachdem Sie sich als Computeradministrator angemeldet haben, öffnen Sie eine neue Abfrage in SSMS, und wählen Sie die Datenbank master aus:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Ersetzen Sie „%COMPUTERNAME%“ durch den Namen Ihres virtuellen Computers.)

Zum Ausführen von SQL Server Management Studio können Sie in der Programmliste oder über die Windows-Suche nach „SQL Server Management Studio“ suchen und das Programm ausführen. Wenn Sie zum Eingeben von Anmeldeinformationen aufgefordert werden, wählen Sie Windows-Authentifizierung aus, und verwenden Sie entweder den Computernamen oder localhost im Feld SQL Server-Name.

Verwenden und Ausführen

Standardmäßig wird der Datenbankserver mit der Datenbankstandardinstanz automatisch ausgeführt. Mithilfe von Tools wie SQL Server Management Studio können Sie lokal über den virtuellen Computer auf die SQL Server-Datenbank zugreifen. Die Konten lokaler Administratoren verfügen über Administratorzugriff auf die Datenbank.

Außerdem wird DSVM mit ODBC- und JDBC-Treibern geliefert, zur Kommunikation mit

  • SQL Server
  • Azure SQL-Datenbanken
  • Azure Synapse Analytics-Ressourcen aus Anwendungen, die in mehreren Sprachen geschrieben wurden, einschließlich Python und Machine Learning Server.

Konfiguration und Installation auf der DSVM

SQL Server wird wie gewohnt installiert. Sie finden sie in C:\Program Files\Microsoft SQL Server. Sie finden die datenbankinterne Machine Learning Server-Instanz unter C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. Die DSVM verfügt auch über eine separate eigenständige Machine Learning Server-Instanz. Diese ist unter C:\Program Files\Microsoft\R Server\R_SERVER installiert. Diese beiden Machine Learning Server-Instanzen verwenden keine Bibliotheken gemeinsam.

Ubuntu

Sie müssen die SQL Server Developer Edition zuerst auf einer Ubuntu-DSVM installieren, bevor Sie sie verwenden können. Unter Schnellstart: Installieren von SQL Server und Erstellen einer Datenbank unter Ubuntu finden Sie weitere Informationen.

Apache Spark 2.x (eigenständige Instanz)

Category Wert
Was ist das? Eine eigenständige Instanz (einzelner In-Process-Knoten) der beliebten Apache Spark-Plattform – einem System für die schnelle Verarbeitung umfangreicher Daten und für Machine Learning
Unterstützte DSVM-Editionen Linux
Typische Verwendung
  • Schnelles lokales Entwickeln von Spark-/PySpark-Anwendungen mit einem kleineren Dataset und spätere Bereitstellung in großen Spark-Clustern wie z. B. Azure HDInsight
  • Testen des Spark-Kontexts von Microsoft Machine Learning Server
  • Erstellen von ML-Anwendungen mit der SparkML oder der Open-Source-Bibliothek MMLSpark von Microsoft
Links zu Beispielen Jupyter-Beispiel:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark-Kontext): /dsvm/samples/MRS/MRSSparkContextSample.R

Verwandte Tools auf der DSVM
  • PySpark, Scala
  • Jupyter (Spark-/PySpark-Kernel)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Verwendung

Sie können den Befehl spark-submit oder pyspark ausführen, um Spark-Aufträge über die Befehlszeile zu übermitteln. Sie können auch ein neues Notebook mit dem Spark-Kernel erstellen, um ein Jupyter-Notebook zu erstellen.

Um Spark über R zu verwenden, nutzen Sie auf der DSVM verfügbaren Bibliotheken wie SparkR, Sparklyr und Microsoft Machine Learning Server. Links zu Beispielen finden Sie in der obigen Tabelle.

Setup

Vor dem Ausführen im Spark-Kontext in Microsoft Machine Learning Server unter der Ubuntu Linux-Edition der DSVM müssen Sie einen einmaligen Einrichtungsschritt ausführen, um eine lokale Hadoop HDFS- und Yarn-Instanz mit einem einzelnen Knoten zu aktivieren. Standardmäßig gilt, dass die Hadoop-Dienste installiert, aber auf der DSVM deaktiviert sind. Um sie zu aktivieren, müssen Sie diese Befehle beim ersten Mal als „root“ ausführen:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Um die Hadoop-bezogenen Dienste zu beenden, wenn Sie sie nicht mehr benötigen, führen Sie systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn aus.

Ein Beispiel, in dem gezeigt wird, wie MRS in einem Spark-Remotekontext (die eigenständige Spark-Instanz auf der DSVM) entwickelt und getestet wird, wird im Verzeichnis /dsvm/samples/MRS bereitgestellt und ist dort verfügbar.

Konfiguration und Installation auf der DSVM

Plattform Installationsort ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotheken für den Zugriff auf Daten über Azure Blob Storage oder Azure Data Lake Storage (ADLS) mithilfe der MMLSpark Machine Learning-Bibliotheken von Microsoft sind unter „$SPARK_HOME/jars“ vorinstalliert. Diese JAR-Dateien werden beim Start von Spark automatisch geladen. Standardmäßig verwendet Spark Daten, die sich auf dem lokalen Datenträger befinden.

Die Spark-Instanz auf der DSVM kann auf Daten zugreifen, die in Blob Storage oder Azure Data Lake Storage gespeichert sind. Sie müssen zuerst die Datei core-site.xml erstellen und konfigurieren, basierend auf der Vorlage in $SPARK_HOME/conf/core-site.xml.template. Außerdem müssen Sie über die entsprechenden Anmeldeinformationen für den Zugriff auf Blob Storage und Azure Data Lake Storage verfügen. Die Vorlagendateien verwenden Platzhalter für Blob Storage- und Azure Data Lake Storage-Konfigurationen.

Informationen zum Erstellen von Azure Data Lake Storage-Dienstanmeldeinformationen finden Sie unter Authentifizierung mit Azure Data Lake Storage Gen1. Nachdem Sie die Anmeldeinformationen für Blob Storage oder Azure Data Lake Storage in die Datei „core-site.xml“ eingegeben haben, können Sie über das URI-Präfix „wasb://“ oder „adl://“ auf die in diesen Quellen gespeicherten Daten verweisen.