Verwenden von Spark- und Hive-Tools für Visual Studio CodeUse Spark & Hive Tools for Visual Studio Code

Hier erfahren Sie, wie Sie Spark- und Hive-Tools für Visual Studio Code verwenden, um Apache Hive-Batchaufträge, interaktive Hive-Abfragen und PySpark-Skripts für Apache Spark zu erstellen und zu übermitteln.Learn how to use Spark & Hive Tools for Visual Studio Code to create and submit Apache Hive batch jobs, interactive Hive queries, and PySpark scripts for Apache Spark. Zunächst wird die Installation der Spark- und Hive-Tools in Visual Studio Code beschrieben, und anschließend werden die Schritte zum Übermitteln von Aufträgen an Hive und Spark erläutert.First we'll describe how to install the Spark & Hive tools in Visual Studio Code and then we'll walk through how to submit jobs to Hive and Spark.

Spark- und Hive-Tools können auf den von Visual Studio Code unterstützten Plattformen installiert werden, z. B. Windows, Linux und macOS.Spark & Hive Tools can be installed on platforms that are supported by Visual Studio Code, which include Windows, Linux, and macOS. Nachstehend finden Sie die Voraussetzungen für die unterschiedlichen Plattformen.Below you'll find the prerequisites for different platforms.

VoraussetzungenPrerequisites

Für die Schritte in diesem Artikel ist Folgendes erforderlich:The following items are required for completing the steps in this article:

Installieren von Spark- und Hive-ToolsInstall Spark & Hive Tools

Wenn die Voraussetzungen erfüllt sind, können Sie Spark- und Hive-Tools für Visual Studio Code installieren.After you have completed the prerequisites, you can install Spark & Hive Tools for Visual Studio Code. Führen Sie die folgenden Schritte aus, um Spark- und Hive-Tools zu installieren:Complete the following steps to install Spark & Hive Tools:

  1. Öffnen Sie Visual Studio Code.Open Visual Studio Code.

  2. Navigieren Sie auf der Menüleiste zu Ansicht > Erweiterungen.From the menu bar, navigate to View > Extensions.

  3. Geben Sie im Suchfeld Spark und Hive ein.In the search box, enter Spark & Hive.

  4. Wählen Sie in den Suchergebnissen Spark- und Hive-Tools und dann die Option Installieren.Select Spark & Hive Tools from the search results, and then select Install.

    Installation der Python-Erweiterung für Spark- und Hive-Tools für Visual Studio Code

  5. Wählen Sie Erneut laden, falls dies erforderlich ist.Reload when needed.

Öffnen des ArbeitsordnersOpen work folder

Führen Sie die folgenden Schritte aus, um einen Arbeitsordner zu öffnen und eine Datei in Visual Studio Code zu erstellen:Complete the following steps to open a work folder, and create a file in Visual Studio Code:

  1. Navigieren Sie auf der Menüleiste zu Datei > Ordner öffnen... > C:\HD\HDexample, und wählen Sie die Schaltfläche Ordner auswählen.From the menu bar, navigate to File > Open Folder... > C:\HD\HDexample, then select the Select Folder button. Der Ordner wird in der Explorer-Ansicht auf der linken Seite angezeigt.The folder appears in the Explorer view on the left.

  2. Wählen Sie in der Explorer-Ansicht den Ordner HDexample aus, und wählen Sie dann neben dem Arbeitsordner das Symbol Neue Datei.From the Explorer view, select the folder, HDexample, and then the New File icon next to the work folder.

    Neue Datei

  3. Benennen Sie die neue Datei mit der Dateierweiterung .hql (Hive-Abfragen) oder .py (Spark-Skript).Name the new file with either the .hql (Hive queries) or the .py (Spark script) file extension. In diesem Beispiel wird HelloWorld.hql verwendet.This example uses HelloWorld.hql.

Einrichten der Azure-UmgebungSet the Azure environment

Für Benutzer der nationalen Cloud: Befolgen Sie zunächst die Schritte zum Festlegen der Azure-Umgebung, und verwenden Sie anschließend den Befehl Azure: Anmelden, um die Azure-Anmeldung durchzuführen.For national cloud user, follow the steps to set Azure environment first, then use Azure: Sign In command to sign into Azure.

  1. Klicken Sie auf Datei > Einstellungen > Einstellungen.Click File\Preferences\Settings.

  2. Suchen Sie nach Azure: Cloud.Search Azure: Cloud

  3. Wählen Sie in der Liste die nationale Cloud aus.Select the national cloud from the list.

    Festlegen der Konfiguration des Standardanmeldeeintrags

Verbinden mit Azure-KontoConnect to Azure account

Bevor Sie Skripts aus Visual Studio Code an Ihre Cluster übermitteln können, müssen Sie entweder eine Verbindung mit Ihrem Azure-Konto herstellen oder einen Cluster verknüpfen (mit dem Ambari-Benutzernamen/-Kennwort oder einem in die Domäne eingebundenen Konto).Before you can submit scripts to your clusters from Visual Studio Code, you need to either connect to your Azure account, or link a cluster (using Ambari username/password or domain joined account). Führen Sie die folgenden Schritte aus, um eine Verbindung mit Azure herzustellen:Complete the following steps to connect to Azure:

  1. Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie Azure: Anmelden ein.From the menu bar navigate to View > Command Palette..., and enter Azure: Sign In.

    Spark- und Hive-Tools für Visual Studio Code: Anmeldung

  2. Befolgen Sie die Anleitung für die Anmeldung, um sich in Azure anzumelden.Follow the sign in instructions to sign in azure. Nach dem Herstellen der Verbindung wird Ihr Azure-Kontoname unten im Visual Studio Code-Fenster in der Statusleiste angezeigt.After you're connected, your Azure account name is shown on the status bar at the bottom of the Visual Studio Code window.

Sie können einen normalen Cluster verknüpfen, indem Sie einen per Apache Ambari verwalteten Benutzernamen verwenden, oder einen per Enterprise Security Pack geschützten Hadoop-Cluster, indem Sie einen Domänenbenutzernamen (z.B. user1@contoso.com) verwenden.You can link a normal cluster by using an Apache Ambari managed username or link an Enterprise Security Pack secure Hadoop cluster by using a domain username (such as: user1@contoso.com).

  1. Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie Spark/Hive: Link a Cluster (Spark/Hive: Cluster verknüpfen) ein.From the menu bar navigate to View > Command Palette..., and enter Spark / Hive: Link a Cluster.

    Befehl „Cluster verknüpfen“

  2. Wählen Sie als Typ des verknüpften Clusters Azure HDInsight aus.Select linked cluster type Azure HDInsight.

  3. Geben Sie die HDInsight-Cluster-URL ein.Enter HDInsight cluster URL.

  4. Geben Sie den Ambari-Benutzernamen ein. Der Standardwert lautet Administrator.Enter Ambari user name, default is admin.

  5. Geben Sie das Ambari-Kennwort ein.Enter Ambari password.

  6. Wählen Sie den Clustertyp aus.Select cluster type.

  7. Legen Sie den Anzeigenamen des Clusters fest (optional).Set the display name of the cluster (Optional).

  8. Überprüfen Sie die Ansicht AUSGABE auf eine Bestätigung.Review OUTPUT view for verification.

    Hinweis

    Der verknüpfte Benutzername und das Kennwort werden verwendet, wenn der Cluster im Azure-Abonnement angemeldet ist und einen Cluster verknüpft hat.The linked username and password are used if the cluster both logged in Azure subscription and Linked a cluster.

  1. Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie Spark/Hive: Link a Cluster (Spark/Hive: Cluster verknüpfen) ein.From the menu bar navigate to View > Command Palette..., and enter Spark / Hive: Link a Cluster.

  2. Wählen Sie als Typ des verknüpften Clusters Generic Livy Endpoint (Generischer Livy-Endpunkt) aus.Select linked cluster type Generic Livy Endpoint.

  3. Geben Sie den generischen Livy-Endpunkt ein, z.B. http://10.172.41.42:18080.Enter the generic Livy endpoint, for example: http://10.172.41.42:18080.

  4. Wählen Sie als Autorisierungstyp Standard oder Keine aus.Select authorization type Basic or None. Bei Auswahl von Standard gehen Sie wie folgt vor:If Basic, then:
     a. a. Geben Sie den Ambari-Benutzernamen ein. Der Standardwert lautet Administrator.Enter Ambari user name, default is admin.
     b. b. Geben Sie das Ambari-Kennwort ein.Enter Ambari password.

  5. Überprüfen Sie die Ansicht AUSGABE auf eine Bestätigung.Review OUTPUT view for verification.

Auflisten von ClusternList clusters

  1. Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie Spark/Hive: List Cluster (Spark/Hive: Cluster auflisten) ein.From the menu bar navigate to View > Command Palette..., and enter Spark / Hive: List Cluster.

  2. Wählen Sie das gewünschte Abonnement aus.Select the desired subscription.

  3. Überprüfen Sie die Ansicht AUSGABE.Review the OUTPUT view. In der Ansicht werden Ihr verknüpfter Cluster und alle Cluster in Ihrem Azure-Abonnement angezeigt.The view will show your linked cluster(s) and all cluster(s) under your Azure subscription.

    Festlegen einer Standardclusterkonfiguration

Festlegen des StandardclustersSet default cluster

  1. Öffnen Sie erneut den zuvor erstellten Ordner HDexample, falls er geschlossen wurde.Re-Open the folder HDexample created earlier if closed.

  2. Wählen Sie die zuvor erstellte Datei HelloWorld.hql aus. Sie wird im Skript-Editor geöffnet.Select the file HelloWorld.hql created earlier and it will open in the script editor.

  3. Klicken Sie mit der rechten Maustaste auf den Skript-Editor, und wählen Sie Spark/Hive: Set Default Cluster (Spark/Hive: Standardcluster festlegen) aus.Right-click the script editor, and select Spark / Hive: Set Default Cluster.

  4. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, oder verknüpfen Sie einen Cluster, sofern noch keine Verbindung besteht.Connect to your Azure account or link a cluster if you haven't yet done so.

  5. Wählen Sie einen Cluster als Standardcluster für die aktuelle Skriptdatei aus.Select a cluster as the default cluster for the current script file. Die Konfigurationsdatei VSCode\settings.json wird automatisch aktualisiert.The tools automatically update the configuration file .VSCode\settings.json.

    Festlegen der Standardclusterkonfiguration

Übermitteln von interaktiven Hive-Abfragen und Hive-BatchskriptsSubmit interactive Hive queries, Hive batch scripts

Mit Spark- und Hive-Tools für Visual Studio Code können Sie interaktive Hive-Abfragen und Hive-Batchskripts an Ihre Cluster übermitteln.With Spark & Hive Tools for Visual Studio Code, you can submit interactive Hive queries, and Hive batch scripts to your clusters.

  1. Öffnen Sie erneut den zuvor erstellten Ordner HDexample, falls er geschlossen wurde.Reopen the folder HDexample created earlier if closed.

  2. Wählen Sie die zuvor erstellte Datei HelloWorld.hql aus. Sie wird im Skript-Editor geöffnet.Select the file HelloWorld.hql created earlier and it will open in the script editor.

  3. Kopieren Sie den folgenden Code, fügen Sie ihn in Ihre Hive-Datei ein, und speichern Sie sie.Copy and paste the following code into your Hive file, and then save it.

    SELECT * FROM hivesampletable;
    
  4. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, oder verknüpfen Sie einen Cluster, sofern noch keine Verbindung besteht.Connect to your Azure account or link a cluster if you haven't yet done so.

  5. Klicken Sie mit der rechten Maustaste auf den Skript-Editor, und wählen Sie Hive: Interactive, um die Abfrage zu übermitteln, oder verwenden Sie die Tastenkombination STRG+ALT+I. Wählen Sie Hive: Batch, um das Skript zu übermitteln, oder verwenden Sie die Tastenkombination STRG+ALT+H.Right-click the script editor, select Hive: Interactive to submit the query, or use shortcut Ctrl + Alt + I. Select Hive: Batch to submit the script, or use shortcut Ctrl + Alt + H.

  6. Wählen Sie den Cluster aus, wenn Sie keinen Standardcluster angegeben haben.Select the cluster if you haven't specified a default cluster. Über das Kontextmenü können Sie anstelle der gesamten Skriptdatei auch einen Codeblock übermitteln.The tools also allow you to submit a block of code instead of the whole script file using the context menu. Nach kurzer Zeit werden die Abfrageergebnisse auf einer neuen Registerkarte angezeigt.After a few moments, the query results appear in a new tab.

    Interactive Hive-Ergebnis

    • Bereich ERGEBNISSE: Sie können das gesamte Ergebnis als CSV-, JSON- oder Excel-Datei in einem lokalen Pfad speichern oder einfach mehrere Zeilen auswählen.RESULTS panel: You can save the whole result as CSV, JSON, or Excel file to local path, or just select multiple lines.

    • Bereich MELDUNGEN: Wenn Sie die Zeilennummer auswählen, gelangen Sie zur ersten Zeile des derzeit ausgeführten Skripts.MESSAGES panel: When you select Line number, it jumps to the first line of the running script.

Übermitteln interaktiver PySpark-AbfragenSubmit interactive PySpark queries

Anhand der folgenden Schritte können Sie interaktive PySpark-Abfragen übermitteln:You can submit interactive PySpark queries by following the steps below:

  1. Öffnen Sie erneut den zuvor erstellten Ordner HDexample, falls er geschlossen wurde.Reopen the folder HDexample created earlier if closed.

  2. Erstellen Sie anhand der zuvor erläuterten Schritte eine neue Datei vom Typ HelloWorld.py.Create a new file HelloWorld.py following the earlier steps.

  3. Kopieren Sie den folgenden Code, und fügen Sie ihn in die Skriptdatei ein:Copy and paste the following code into the script file:

    from operator import add
    lines = spark.read.text("/HdiSamples/HdiSamples/FoodInspectionData/README").rdd.map(lambda r: r[0])
    counters = lines.flatMap(lambda x: x.split(' ')) \
                 .map(lambda x: (x, 1)) \
                 .reduceByKey(add)
    
    coll = counters.collect()
    sortedCollection = sorted(coll, key = lambda r: r[1], reverse = True)
    
    for i in range(0, 5):
         print(sortedCollection[i])
    
  4. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, oder verknüpfen Sie einen Cluster, sofern noch keine Verbindung besteht.Connect to your Azure account or link a cluster if you haven't yet done so.

  5. Wählen Sie den gesamten Code aus, und klicken Sie mit der rechten Maustaste auf den Skript-Editor. Wählen Sie Spark: PySpark Interactive aus, um die Abfrage zu übermitteln, oder verwenden Sie die Tastenkombination STRG+ALT+I.Choose all the code and right-click the script editor, select Spark: PySpark Interactive to submit the query, or use shortcut Ctrl + Alt + I.

    Kontextmenü von PySpark Interactive

  6. Wählen Sie den Cluster aus, wenn Sie keinen Standardcluster angegeben haben.Select the cluster if you haven't specified a default cluster. Nach kurzer Zeit werden die Python Interactive-Ergebnisse auf einer neuen Registerkarte angezeigt. Über das Kontextmenü können Sie anstelle der gesamten Skriptdatei auch einen Codeblock übermitteln.After a few moments, the Python Interactive results appear in a new tab. The tools also allow you to submit a block of code instead of the whole script file using the context menu.

    Fenster mit PySpark Interactive und Python Interactive

  7. Geben Sie "%% Info" ein, und drücken Sie dann die UMSCHALT + EINGABETASTE, um Auftragsinformationen anzuzeigen.Enter "%%info", and then press Shift + Enter to view job information. (Optional)(Optional)

    Auftragsinformationen anzeigen

  8. Das Tool unterstützt auch die Spark SQL-Abfrage.The tool also supports the Spark SQL query.

    PySpark Interactive Ergebnis anzeigen

    Der Übertragungsstatus wird beim Ausführen von Abfragen links neben der unteren Statusleiste angezeigt.The submission status appears on the left of the bottom status bar when you're running queries. Übermitteln Sie keine weiteren Abfragen, wenn der Status PySpark Kernel (busy) (PySpark-Kernel (ausgelastet)) lautet.Don't submit other queries when the status is PySpark Kernel (busy).

    Hinweis

    Wenn das Kontrollkästchen für Python-Erweiterung aktiviert nicht aktiviert ist (die Standardeinstellung ist aktiviert), werden die übermittelten Ergebnisse für die Pyspark-Interaktion im alten Fenster angezeigt.When Python Extension Enabled is unchecked in the settings (The default setting is checked), the submitted pyspark interaction results will use the old window.

    Python-Erweiterung für PySpark Interactive deaktiviert

Übermitteln eines PySpark-BatchauftragsSubmit PySpark batch job

  1. Öffnen Sie erneut den zuvor erstellten Ordner HDexample, falls er geschlossen wurde.Reopen the folder HDexample created earlier if closed.

  2. Erstellen Sie anhand der zuvor erläuterten Schritte eine neue Datei vom Typ BatchFile.py.Create a new file BatchFile.py following the earlier steps.

  3. Kopieren Sie den folgenden Code, und fügen Sie ihn in die Skriptdatei ein:Copy and paste the following code into the script file:

    from __future__ import print_function
    import sys
    from operator import add
    from pyspark.sql import SparkSession
    if __name__ == "__main__":
        spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .getOrCreate()
    
        lines = spark.read.text('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv').rdd.map(lambda r: r[0])
        counts = lines.flatMap(lambda x: x.split(' '))\
                    .map(lambda x: (x, 1))\
                    .reduceByKey(add)
        output = counts.collect()
        for (word, count) in output:
            print("%s: %i" % (word, count))
        spark.stop()
    
  4. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, oder verknüpfen Sie einen Cluster, sofern noch keine Verbindung besteht.Connect to your Azure account or link a cluster if you haven't yet done so.

  5. Klicken Sie mit der rechten Maustaste auf den Skript-Editor, und wählen Sie anschließend Spark: PySpark Batch aus, oder verwenden Sie die Tastenkombination STRG+ALT+H.Right-click the script editor, and then select Spark: PySpark Batch, or use shortcut Ctrl + Alt + H.

  6. Wählen Sie einen Cluster aus, an den Sie Ihren PySpark-Auftrag übermitteln möchten.Select a cluster to which to submit your PySpark job.

    Übermitteln des Ergebnisses des Python-Auftrags

Nach dem Übermitteln eines Python-Auftrags werden die Übermittlungsprotokolle in Visual Studio Code im Fenster AUSGABE angezeigt.After you submit a Python job, submission logs appear in the OUTPUT window in Visual Studio Code. Die URL der Spark-Benutzeroberfläche und die URL der Yarn-Benutzeroberfläche werden ebenfalls angezeigt.The Spark UI URL and Yarn UI URL are shown as well. Sie können die URL in einem Webbrowser öffnen, um den Auftragsstatus nachzuverfolgen.You can open the URL in a web browser to track the job status.

Apache Livy-KonfigurationApache Livy configuration

Die Apache Livy-Konfiguration wird unterstützt. Entsprechende Einstellungen können Sie unter .VSCode\settings.json im Arbeitsbereichsordner vornehmen.Apache Livy configuration is supported, it can be set at the .VSCode\settings.json in the work space folder. Derzeit wird in der Livy-Konfiguration nur das Python-Skript unterstützt.Currently, livy configuration only supports Python script. Weitere Details finden Sie in der Livy-INFODATEI.More details, see Livy README.

Auslösen der Livy-KonfigurationHow to trigger livy configuration

Methode 1Method 1

  1. Navigieren Sie auf der Menüleiste zu Datei > Einstellungen > Einstellungen.From the menu bar, navigate to File > Preferences > Settings.
  2. Geben Sie in das Suchfeld Sucheinstellungen die Zeichenfolge HDInsight Job Submission: Livy Conf (HDInsight-Auftragsübermittlung: Livy-Konfiguration) ein.In the Search settings text box enter HDInsight Job Sumission: Livy Conf.
  3. Wählen Sie für das relevante Suchergebnis Edit in settings.json (In „settings.json“ bearbeiten) aus.Select Edit in settings.json for the relevant search result.

Methode 2Method 2
Übermitteln Sie eine Datei. Beachten Sie dabei, dass der Ordner „.vscode“ automatisch dem Arbeitsordner hinzugefügt wird.Submit a file, notice the .vscode folder is added automatically to the work folder. Die Livy-Konfiguration finden Sie, indem Sie auf .vscode\settings.json klicken.You can find the livy configuration by clicking .vscode\settings.json.

  • Die Projekteinstellungen:The project settings:

    Livy-Konfiguration

Hinweis

Legen Sie für die Einstellungen driverMomory und executorMomry den Wert mit Einheit fest, z.B. „1g“ oder „1024m“.For settings driverMomory and executorMomry, set the value with unit, for example 1g or 1024m.

  • Die unterstützten Livy-Konfigurationen:The supported Livy configurations:

    POST /batches POST /batches
    AnforderungstextRequest Body

    namename descriptiondescription typetype
    filefile Die Datei, die die auszuführende Anwendung enthält.File containing the application to execute Pfad (erforderlich)path (required)
    proxyUserproxyUser Der Benutzer, dessen Identität bei Auftragsausführung gewechselt wird.User to impersonate when running the job Zeichenfolgestring
    classNameclassName Die Java-/Spark-Hauptklasse der Anwendung.Application Java/Spark main class Zeichenfolgestring
    argsargs Die Befehlszeilenargumente, die an die Anwendung übergeben werden sollen.Command line arguments for the application Liste von Zeichenfolgenlist of strings
    jarsjars JAR-Dateien, die in dieser Sitzung verwendet werden.jars to be used in this session Liste von ZeichenfolgenList of string
    pyFilespyFiles Python-Dateien, die in dieser Sitzung verwendet werden.Python files to be used in this session Liste von ZeichenfolgenList of string
    filesfiles Dateien, die in dieser Sitzung verwendet werden.files to be used in this session Liste von ZeichenfolgenList of string
    driverMemorydriverMemory Die Menge an Arbeitsspeicher, der für den Treiberprozess verwendet wird.Amount of memory to use for the driver process Zeichenfolgestring
    driverCoresdriverCores Die Anzahl von Kernen, die für den Treiberprozess verwendet wird.Number of cores to use for the driver process intint
    executorMemoryexecutorMemory Die Menge an Arbeitsspeicher, die pro Executorprozess verwendet wird.Amount of memory to use per executor process Zeichenfolgestring
    executorCoresexecutorCores Die Anzahl von Kernen, die für jeden Executor verwendet wird.Number of cores to use for each executor intint
    numExecutorsnumExecutors Die Anzahl von Executors, die für diese Sitzung gestartet werden.Number of executors to launch for this session intint
    archivesarchives Die Archive, die in dieser Sitzung verwendet werden.Archives to be used in this session Liste von ZeichenfolgenList of string
    queuequeue Der Name der YARN-Warteschlange, an den gesendet wird.The name of the YARN queue to which submitted Zeichenfolgestring
    namename Der Name dieser Sitzung.The name of this session Zeichenfolgestring
    confconf Eigenschaften der Spark-Konfiguration.Spark configuration properties Zuordnung von Schlüssel=WertMap of key=val

    AntworttextResponse Body
    Das erstellte BatchobjektThe created Batch object.

    namename descriptiondescription typetype
    idid Die Sitzungs-IDThe session id intint
    appIdappId Die Anwendungs-ID dieser SitzungThe application id of this session ZeichenfolgeString
    appInfoappInfo Die detaillierten AnwendungsinformationenThe detailed application info Zuordnung von Schlüssel=WertMap of key=val
    loglog Die ProtokollzeilenThe log lines Liste von Zeichenfolgenlist of strings
    statestate Der BatchstatusThe batch state Zeichenfolgestring

Hinweis

Die zugewiesene Livy-Konfiguration wird beim Übermitteln des Skripts im Ausgabebereich angezeigt.The assigned livy config will display in output pane when submit script.

Integration mit Azure HDInsight per ExplorerIntegrate with Azure HDInsight from Explorer

Azure HDInsight wurde der Explorer-Ansicht hinzugefügt.Azure HDInsight has been added to the Explorer view. Sie können Ihre Cluster direkt über Azure HDInsight durchsuchen und verwalten.You can browse and manage you cluster(s) directly through Azure HDInsight.

  1. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, oder verknüpfen Sie einen Cluster, sofern noch keine Verbindung besteht.Connect to your Azure account or link a cluster if you haven't yet done so.

  2. Navigieren Sie auf der Menüleiste zu Ansicht > Explorer.From the menu bar, navigate to View > Explorer.

  3. Erweitern Sie im linken Bereich AZURE HDINSIGHT.From the left pane, expand AZURE HDINSIGHT. Die verfügbaren Abonnements und Cluster (Spark, Hadoop und HBase werden unterstützt) werden aufgeführt.The available subscriptions and clusters (Spark, Hadoop, and HBase are supported) will be listed.

    Azure HDInsight-Abonnement

  4. Erweitern Sie den Cluster, um die Hive-Metadatendatenbank und das Hive-Tabellenschema anzuzeigen.Expand the cluster to view hive metadata database and table schema.

    Azure HDInsight-Cluster

Hive-Tabelle – VorschauPreview Hive Table

Sie können eine Vorschau der Hive-Tabelle in Ihren Clustern direkt über den Azure HDInsight-Explorer anzeigen.You can preview Hive Table in your cluster(s) directly through Azure HDInsight explorer.

  1. Stellen Sie eine Verbindung mit Ihrem Azure-Konto her, sofern noch keine Verbindung besteht.Connect to your Azure account if you haven't yet done so.

  2. Klicken Sie auf das Azure-Symbol in der äußerst linken Spalte.Click Azure icon from leftmost column.

  3. Erweitern Sie im linken Bereich AZURE HDINSIGHT.From the left pane, expand AZURE HDINSIGHT. Die verfügbaren Abonnements und Cluster werden aufgeführt.The available subscriptions and clusters will be listed.

  4. Erweitern Sie den Cluster, um die Hive-Metadatendatenbank und das Hive-Tabellenschema anzuzeigen.Expand the cluster to view hive metadata database and table schema.

  5. Klicken Sie mit der rechten Maustaste auf die Hive-Tabelle, z.B. „hivesampletable“.Right-click on the Hive Table, e.g hivesampletable. Wählen Sie Vorschau aus.Select Preview.

    Spark und Hive für Visual Studio Code: Vorschau für Hive-Tabelle

  6. Das Fenster Ergebnisvorschau wird geöffnet.The Preview Results window will be opened.

    Spark und Hive für Visual Studio Code: Fenster „Ergebnisvorschau“

  • Bereich ERGEBNISSERESULTS panel

    Sie können das gesamte Ergebnis als CSV-, JSON- oder Excel-Datei in einem lokalen Pfad speichern oder einfach mehrere Zeilen auswählen.You can save the whole result as CSV, JSON, or Excel file to local path, or just select multiple lines.

  • Bereich MELDUNGENMESSAGES panel

    1. Wenn die Tabelle mehr als 100 Zeilen enthält, wird die folgende Meldung angezeigt: Die ersten 100 Zeilen werden für die Hive-Tabelle angezeigt.When the number of rows in the table is greater than 100 rows, the message shows: The first 100 rows are displayed for Hive table.
    2. Wenn die Tabelle weniger oder maximal als 100 Zeilen enthält, wird die folgende Meldung angezeigt: 60 Zeilen werden für die Hive-Tabelle angezeigt.When the number of rows in the table is less than or equal to 100 rows, the message shows: 60 rows are displayed for Hive table.
    3. Wenn die Tabelle leer ist, wird die folgende Meldung angezeigt: 0 Zeilen werden für die Hive-Tabelle angezeigt.When there is no content in the table, the message shows: 0 row is displayed for Hive table.

Hinweis

Installieren Sie unter Linux Xclip, um das Kopieren von Tabellendaten zu aktivieren.In Linux, install xclip to enable copy table data.

Spark und Hive für Visual Studio Code unter Linux

Zusätzliche FunktionenAdditional features

Spark und Hive für Visual Studio Code unterstützt die folgenden Features:Spark & Hive for Visual Studio Code supports the following features:

  • IntelliSense-AutoVervollständigen.IntelliSense autocomplete. Zeigt Vorschläge für Schlüsselwörter, Methoden, Variablen und Ähnliches an.Suggestions pop up for keyword, methods, variables, and so on. Die unterschiedlichen Objekttypen werden durch entsprechende Symbole dargestellt.Different icons represent different types of objects.

    Spark- und Hive-Tools für Visual Studio Code: IntelliSense-Objekttypen

  • IntelliSense-Fehlermarker.IntelliSense error marker. Der Sprachdienst unterstreicht die Bearbeitungsfehler für das Hive-Skript.The language service underlines the editing errors for the Hive script.

  • Syntaxmarkierungen.Syntax highlights. Der Sprachdienst verwendet verschiedene Farben, um Variablen, Schlüsselwörter, Datentypen, Funktionen und Ähnliches zu unterscheiden.The language service uses different colors to differentiate variables, keywords, data type, functions, and so on.

    Spark- und Hive-Tools für Visual Studio Code: Syntaxmarkierungen

Rolle „Nur Leser“Reader Only Role

Benutzer mit Cluster-Rolle Nur Leser können keinen Auftrag mehr an den HDInsight-Cluster übermitteln oder die Hive-Datenbank anzeigen.Users with cluster Reader only role can no longer submit job to the HDInsight cluster nor view the Hive database. Wenden Sie sich an den Clusteradministrator, um die Rolle im Azure-Portal auf HDInsight-Clusteroperator **** zu aktualisieren.Contact the cluster administrator to upgrade your role to HDInsight Cluster Operator in the Azure portal. Wenn Sie die Ambari-Anmeldeinformationen kennen, können Sie den Cluster mithilfe der folgenden Anweisung manuell verknüpfen.If you know Ambari credentials, you can manually link the cluster following the instruction below.

Durchsuchen des Azure HDInsight-ClustersBrowse HDInsight Cluster

Wenn Sie für den Cluster die Rolle „Nur Leser“ haben und auf den Azure HDInsight-Explorer klicken, um einen HDInsight-Cluster zu erweitern, werden Sie aufgefordert, den Cluster zu verknüpfen.When clicking on the Azure HDInsight explorer to expand an HDInsight cluster, you will be prompted to link the cluster if you are reader only role for the cluster. Führen Sie die folgenden Schritte aus, um den Cluster per Ambari-Anmeldeinformationen zu verknüpfen.Follow the steps below to link to the cluster via Ambari credentials.

Übermitteln eines Auftrags an den HDInsight-ClusterSubmit job to HDInsight cluster

Wenn Sie für den Cluster die Rolle „Nur Leser“ haben und einen Auftrag an den HDInsight-Cluster übermitteln, werden Sie aufgefordert, den Cluster zu verknüpfen.When submitting job to an HDInsight cluster, you will be prompted to link the cluster if you are reader only role for the cluster. Führen Sie die folgenden Schritte aus, um den Cluster per Ambari-Anmeldeinformationen zu verknüpfen.Follow the steps below to link to the cluster via Ambari credentials.

  1. Geben Sie den Benutzernamen für Ambari ein.Enter the Ambari username
  2. Geben Sie das Ambari-Benutzerkennwort ein.Enter Ambari user Password.

Spark- und Hive-Tools für Visual Studio Code: Benutzername

Spark- und Hive-Tools für Visual Studio Code: Kennwort

Hinweis

Sie können „Spark/Hive: List Cluster“ (Spark/Hive: Cluster auflisten) verwenden, um den verknüpften Cluster zu überprüfen.You can use Spark / Hive: List Cluster to check the linked cluster.

Spark- und Hive-Tools für Visual Studio Code: Leser verknüpft

Azure Data Lake Storage Gen2 (ADLS Gen2)Azure Data Lake Storage Gen2 (ADLS Gen2)

Durchsuchen eines ADLS Gen2-KontosBrowse an ADLS Gen2 Account

Wenn Sie auf den Azure HDInsight-Explorer klicken, um ein ADLS Gen2-Konto zu erweitern, werden Sie aufgefordert, den Zugriffsschlüssel für den Speicher einzugeben, wenn Ihr Azure-Konto keinen Zugriff auf den Gen2-Speicher hat.When clicking on the Azure HDInsight explorer to expand an ADLS Gen2 account, you will be prompted to enter the storage Access key if your Azure account has no access to the Gen2 storage. Das ADLS Gen2-Konto werden automatisch erweitert, sobald der Zugriffsschlüssel erfolgreich überprüft wurde.The ADLS Gen2 account will be auto expanded once the access key is validated successfully.

Übermitteln von Aufträgen an HDInsight-Cluster mit ADLS Gen2Submit jobs to HDInsight cluster with ADLS Gen2

Wenn Sie einen Auftrag an einen HDInsight-Cluster mit ADLS Gen2 übermitteln, werden Sie aufgefordert, den Zugriffsschlüssel für den Speicher einzugeben, wenn Ihr Azure-Konto keinen Schreibzugriff auf den Gen2-Speicher hat.When submitting job to an HDInsight cluster with ADLS Gen2, you will be prompted to enter the storage Access key if your Azure account has no write access to the Gen2 storage. Der Auftrag wird erfolgreich übermittelt, sobald der Zugriffsschlüssel erfolgreich überprüft wurde.The job will be successfully submitted once the access key is validated successfully.

Spark- und Hive-Tools für Visual Studio Code: Zugriffsschlüssel

Hinweis

Den Zugriffsschlüssel für das Speicherkonto erhalten Sie über das Azure-Portal.You can get the access key for storage account from the Azure portal. Weitere Informationen finden Sie unter Anzeigen und Kopieren von Zugriffsschlüsseln.For information, see View and copy access keys.

  1. Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie dann Spark/Hive: Unlink a Cluster (Spark/Hive: Verknüpfung eines Clusters aufheben) ein.From the menu bar navigate to View > Command Palette..., and then enter Spark / Hive: Unlink a Cluster.

  2. Wählen Sie den Cluster aus, dessen Verknüpfung aufgehoben werden soll.Select cluster to unlink.

  3. Überprüfen Sie die Ansicht AUSGABE auf eine Bestätigung.Review OUTPUT view for verification.

AbmeldenSign out

Navigieren Sie in der Menüleiste zu Ansicht > Befehlspalette... , und geben Sie dann Azure: Abmelden ein.From the menu bar navigate to View > Command Palette..., and then enter Azure: Sign Out.

Nächste SchritteNext steps

Ein Demovideo zur Verwendung von Spark und Hive für Visual Studio Code finden Sie unter Spark und Hive für Visual Studio Code.For a demonstration video of using Spark & Hive for Visual Studio Code, see Spark & Hive for Visual Studio Code