Exportieren nach Hive-Abfrage

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

In diesem Artikel wird beschrieben, wie Sie die Option zum Exportieren von Daten nach Hive im Export Data -Modul in Azure Machine Learning Studio (klassisch) verwenden. Diese Option ist nützlich, wenn Sie mit sehr großen Datasets arbeiten und ihre Machine Learning-Experimentdaten in einem Hadoop-Cluster oder in einem verteilten hdinsight-Speicher speichern möchten. Möglicherweise möchten Sie auch Zwischenergebnisse oder andere Daten in Hadoop exportieren, damit Sie Sie mithilfe eines MapReduce-Auftrags verarbeiten können.

Exportieren von Daten nach Hive

  1. Fügen Sie Ihrem Experiment das Modul zum Exportieren von Daten hinzu. Sie finden dieses Modul in der Kategorie Dateneingabe und-Ausgabe in Azure Machine Learning Studio (klassisch).

    Verbinden Sie das Modul mit dem DataSet, das Sie exportieren möchten.

  2. Wählen Sie für Datenquelle die Option Hive-Abfrage aus.

  3. Geben Sie für Hive-Tabellenname den Namen der Hive-Tabelle ein, in der das Dataset gespeichert werden soll.

  4. Geben Sie im Textfeld hcatalog-Server-URI den voll qualifizierten Namen Ihres Clusters ein.

    Wenn Sie z. b. einen Cluster mit dem Namen erstellt mycluster001 haben, verwenden Sie folgendes Format:

    https://mycluster001.azurehdinsight.net

  5. Fügen Sie im Textfeld Hadoop-Benutzerkonto Name das Hadoop-Benutzerkonto ein, das Sie bei der Bereitstellung des Clusters verwendet haben.

  6. Geben Sie im Textfeld Kennwort für Hadoop-Benutzerkonto die Anmelde Informationen ein, die Sie bei der Bereitstellung des Clusters verwendet haben.

  7. Wählen Sie für Speicherort der Ausgabedaten die Option aus, die angibt, wo die Daten gespeichert werden sollen: HDFS oder Azure.

    Wenn sich die Daten im Hadoop-HDFS (verteiltes Dateisystem) befinden, müssen Sie über das Konto und das Kennwort, das Sie soeben eingegeben haben, darauf zugreifen können.

    Wenn die Daten in Azure enthalten sind, geben Sie den Speicherort und die Anmelde Informationen des Speicher Kontos an.

  8. Wenn Sie die Option HDFS ausgewählt haben, geben Sie für HDFS-Server-URI den Namen des hdinsight-Clusters ohne das https:// Präfix an.

  9. Wenn Sie die Azure -Option ausgewählt haben, geben Sie den Speicherkonto Namen und die Anmelde Informationen an, die das Modul zum Herstellen einer Verbindung mit dem Speicher verwenden kann.

    • Name des Azure-Speicher Kontos: Geben Sie den Namen des Azure-Kontos ein. Wenn die vollständige URL des Speicherkontos z.B. https://myshared.blob.core.windows.net lautet, geben Sie myshared ein.

    • Azure-Speicher Schlüssel: Kopieren Sie den Schlüssel, der für den Zugriff auf das Speicherkonto bereitgestellt wird

    • Azure-Container Name: Geben Sie den Standardcontainer für den Cluster an. Tipps, wie Sie den Standardcontainer ermitteln können, finden Sie im Abschnitt Technische Hinweise .

  10. Zwischengespeicherte Ergebnisse verwenden: Wählen Sie diese Option aus, wenn Sie nicht jedes Mal, wenn Sie das Experiment ausführen, die Hive-Tabelle neu schreiben möchten. Wenn keine weiteren Änderungen an Modul Parametern vorgenommen werden, schreibt das Experiment die Hive-Tabelle nur beim ersten Ausführen des Moduls oder bei Änderungen an den Daten.

    Wenn Sie die Hive-Tabelle jedes Mal schreiben möchten, wenn das Experiment ausgeführt wird, deaktivieren Sie die Option zwischengespeicherte Ergebnisse verwenden .

  11. Führen Sie das Experiment aus.

Beispiele

Beispiele für die Verwendung des Moduls Export Data finden Sie in der Azure AI Gallery.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Vermeiden von nicht genügend Arbeitsspeicher Problemen beim Schreiben großer Datasets

Manchmal ist die Standardkonfiguration des Hadoop-Clusters zu eingeschränkt, um die Ausführung des MapReduce-Auftrags zu unterstützen. In diesen Anmerkungen zur Version für hdinsight werden beispielsweise die Standardeinstellungen als Cluster mit vier Knoten definiert.

Wenn die Anforderungen des MapReduce-Auftrags die verfügbare Kapazität überschreiten, geben die Hive-Abfragen möglicherweise die Fehlermeldung "nicht genügend Arbeits Speicher " zurück, wodurch der Vorgang zum Exportieren von Daten fehlschlägt. Wenn dies der Fall ist, können Sie die Standard Speicher Belegung für Hive-Abfragen ändern.

Vermeiden, dass die gleichen Daten unnötig erneut geladen werden

Wenn Sie die Hive-Tabelle nicht jedes Mal neu erstellen möchten, wenn Sie das Experiment ausführen, aktivieren Sie die Option zwischengespeicherte Ergebnisse verwenden auf true. Wenn diese Option auf true festgelegt ist, überprüft das Modul, ob das Experiment zuvor ausgeführt wurde, und wenn eine vorherige Ausführung gefunden wurde, wird der Schreibvorgang nicht ausgeführt.

Verwendungstipps

Es kann schwierig sein, den Standardcontainer für den Cluster zu ermitteln. Hier einige Tipps:

  • Wenn Sie Ihren Cluster mit den Standardeinstellungen erstellt haben, wurde während der Erstellung des Clusters ein Container mit demselben Namen erstellt. Dieser Container ist der Standardcontainer für den Cluster.

  • Wenn Sie den Cluster mithilfe der Option Benutzer definiert erstellen erstellt haben, haben Sie zwei Optionen für die Auswahl des Standard Containers ausgewählt.

    Vorhandener Container: Wenn Sie einen vorhandenen Container ausgewählt haben, ist dieser Container der Standard Speicher Container für den Cluster.

    Standardcontainer erstellen: Wenn Sie diese Option ausgewählt haben, wird ein Container mit demselben Namen wie der Cluster erstellt, und Sie sollten den Container Namen als Standardcontainer für den Cluster angeben.

Modulparameter

Name Range type Standard BESCHREIBUNG
Datenquelle List Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann HTTP, FTP, anonymes HTTPS oder FTPS, eine Datei im Azure-BLOB-Speicher, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine Hive-Tabelle oder ein OData-Endpunkt sein.
Name der Hive-Tabelle any String Keine Name der Tabelle in Hive
HCatalog server URI any String Keine Templeton-Endpunkt
Hadoop user account name any String Keine Hadoop HDFS/hdinsight-Benutzername
Kennwort für Hadoop-Benutzerkonto any SecureString Keine Hadoop HDFS/hdinsight-Kennwort
Location of output data any Datalokation HDFS Angeben von HDFS oder Azure für OutputDir
HDFS-Server-URI any String Keine HDFS-Rest-Endpunkt
Azure-Speicherkontoname any String Keine Azure-Speicherkontoname
Azure-Speicherschlüssel any SecureString Keine Azure-Speicherschlüssel
Azure container name any String Keine Azure container name
Verwenden von zwischengespeicherten Ergebnissen TRUE/FALSE Boolean FALSE Das Modul wird nur ausgeführt, wenn kein gültiger Cache vorhanden ist. Verwenden Sie andernfalls zwischengespeicherte Daten aus vorheriger Ausführung.

Ausnahmen

Ausnahme Beschreibung
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0009 Eine Ausnahme tritt auf, wenn der Azure-Speicherkontoname oder der Containername falsch angegeben ist.
Fehler 0048 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046 Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Importieren von Daten
Daten exportieren
Exportieren in Azure SQL-Datenbank
Exportieren nach Azure BLOB Storage
Exportieren nach Azure Table