Importieren aus Azure Table

In diesem Artikel wird beschrieben, wie Sie das Import Data -Modul in Azure Machine Learning Studio (klassisch) verwenden, um strukturierte oder teilweise strukturierte Daten aus Azure-Tabellen in ein Machine Learning-Experiment zu importieren.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Der Azure- Tabellen Speicherdienst ist ein Daten Verwaltungsdienst in Azure, der große Mengen strukturierter, nicht relationaler Daten speichern kann. Dabei handelt es sich um einen nosql-Datenspeicher, der authentifizierte Aufrufe von innerhalb und außerhalb von Azure akzeptiert.

Für den Import aus Azure Table Storage müssen Sie einen der beiden Konto Typen auswählen: ein Speicherkonto, auf das über eine SAS-URL zugegriffen werden kann, oder ein privates Speicherkonto, für das Anmelde Informationen erforderlich sind.

Importieren von Daten aus Azure-Tabellen

Verwenden des Assistenten zum Importieren von Daten

Das Modul enthält einen neuen Assistenten, der Sie bei der Auswahl einer Speicher Option unterstützt, aus vorhandenen Abonnements und Konten auswählen und schnell alle Optionen konfigurieren können.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul unter Dateneingabe und-Ausgabe.

  2. Klicken Sie auf Daten importieren-Assistent , und befolgen Sie die Anweisungen.

  3. Wenn die Konfiguration beendet ist, klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie ausgewählte ausführen aus, um die Daten tatsächlich in das Experiment zu kopieren.

Wenn Sie eine vorhandene Datenverbindung bearbeiten müssen, lädt der Assistent alle vorherigen Konfigurationsdetails, damit Sie nicht von Grund auf neu starten müssen.

Manuelles Festlegen der Eigenschaften im Modul „Daten importieren“

Die folgenden Schritte beschreiben, wie Sie die Importquelle manuell konfigurieren.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden dieses Modul in der Gruppe " Dateneingabe und-Ausgabe " in der Liste der Experiment Elemente in Azure Machine Learning Studio (klassisch).

  2. Wählen Sie für Datenquelle die Option Azure-Tabelle aus.

  3. Wählen Sie Öffentlich (SAS-URL) als Authentifizierungstyp aus, wenn Sie wissen, dass die Informationen als öffentliche Datenquelle bereitgestellt wurden. Eine SAS-URL ist eine zeitgebundene Zugriffs-URL, die Sie mithilfe eines Azure Storage-Hilfsprogramms generieren können.

    Andernfalls wählen Sie Konto aus.

  4. Wenn sich Ihre Daten in einem öffentlichen Blob befinden, auf den über eine SAS-URL zugegriffen werden kann, benötigen Sie keine zusätzlichen Anmeldeinformationen, da die URL-Zeichenfolge alle Informationen enthält, die für den Download und die Authentifizierung erforderlich sind.

    Geben oder fügen Sie im Feld Table SAS URI (Tabellen-SAS-URI ) den vollständigen URI ein, der das Konto und das öffentliche BLOB definiert.

    Hinweis

    Auf einer Seite, auf die über die SAS-URL zugegriffen werden kann, können Daten nur mit diesen Formaten gespeichert werden: CSV, TSV und ArFF.

  5. Wenn sich Ihre Daten in einem privaten Konto befinden, müssen Sie Anmeldeinformationen angeben, einschließlich des Kontonamens und des Schlüssels.

    • Geben Sie für tabellenkonto Name den Namen des Kontos ein, das das BLOB enthält, auf das Sie zugreifen möchten, oder fügen Sie es ein.

      Wenn die vollständige URL des Speicherkontos z.B. https://myshared.table.core.windows.net lautet, geben Sie myshared ein.

    • Fügen Sie für den tabellenkonto Schlüssel den Zugriffsschlüssel ein, der dem Speicherkonto zugeordnet ist. \

      Wenn Sie den Zugriffsschlüssel nicht kennen, finden Sie weitere Informationen im Abschnitt "anzeigen, kopieren und Erneutes Generieren von Speicherzugriffs Schlüsseln" in diesem Artikel: Informationen zu Azure Storage Konten.

    • Geben Sie unter Tabellenname den Namen der bestimmten Tabelle ein, die Sie lesen möchten.

  6. Wählen Sie eine Option aus, die angibt, wie viele Zeilen die Import Daten überprüfen sollen. Beim Importieren von Daten wird der Scan verwendet, um die Liste der Spalten in den Daten zu erhalten und zu bestimmen, welche Spaltendatentypen verwendet werden sollen.

    • TopN: scannt nur die angegebene Anzahl von Zeilen, beginnend am Anfang des Datasets.

      Standardmäßig werden 10 Zeilen gescannt, Sie können diesen Wert jedoch erhöhen oder verringern, indem Sie die Option Zeilen Anzahl für TopN verwenden.

      Wenn die Daten homogen und vorhersagbar sind, wählen Sie TopN aus, und geben Sie eine Zahl für N ein. Bei großen Tabellen kann dies zu schnelleren Lesezeiten führen.

    • Scanall: alle Zeilen in der Tabelle überprüfen.

      Wenn die Daten mit Sätzen von Eigenschaften strukturiert sind, die abhängig von der Tiefe und Position der Tabelle variieren, wählen Sie die Option ScanAll, um alle Zeilen zu überprüfen. Dadurch wird die Integrität der resultierenden Eigenschafts- und Metadatenkonvertierung sichergestellt.

  7. Geben Sie an, ob die Daten jedes Mal aktualisiert werden sollen, wenn das Experiment ausgeführt wird. Wenn Sie die Option zwischengespeicherte Ergebnisse verwenden (Standardeinstellung) auswählen, liest das Import Data -Modul Daten aus der angegebenen Quelle, wenn das Experiment zum ersten Mal ausgeführt wird, und speichert die Ergebnisse anschließend zwischen. Wenn Änderungen an den Parametern des Import Data -Moduls vorgenommen werden, werden die Daten erneut geladen.

    Wenn Sie diese Option deaktivieren, werden die Daten jedes Mal, wenn das Experiment ausgeführt wird, aus der Quelle gelesen, unabhängig davon, ob die Daten identisch sind oder nicht.

Beispiele

Beispiele für die Verwendung des Moduls Export Data finden Sie in der Azure AI Gallery.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Wie kann ich vermeiden, dass die gleichen Daten unnötig erneut geladen werden?

Wenn sich die Quelldaten ändern, können Sie das DataSet aktualisieren und neue Daten hinzufügen, indem Sie Import Datenerneut ausführen. Wenn die Daten jedoch nicht bei jeder Ausführung des Experiments erneut aus der Quelle gelesen werden sollen, legen Sie die Option Use cached results (Zwischengespeicherte Ergebnisse verwenden) auf TRUE fest. Wenn diese Option auf true festgelegt ist, überprüft das Modul, ob das Experiment zuvor mit derselben Quelle und denselben Eingabeoptionen ausgeführt wurde. Wenn eine vorherige Testdatei gefunden wird, werden die Daten im Cache verwendet, anstatt die Daten aus der Quelle erneut zu laden.

Kann ich Daten filtern, während Sie aus der Quelle gelesen werden?

Das Import Data -Modul unterstützt das Filtern beim Lesen von Daten nicht. Die Ausnahme ist das Lesen aus Datenfeeds, mit denen manchmal eine Filterbedingung als Teil der Feed-URL angegeben werden kann.

Sie können Daten jedoch nach dem Lesen in Azure Machine Learning Studio (klassisch) ändern oder filtern:

  • Verwenden Sie ein benutzerdefiniertes R-Skript zum Ändern oder Filtern von Daten.
  • Verwenden Sie das Modul Split Data mit einem relativen Ausdruck oder einem regulären Ausdruck, um die gewünschten Daten zu isolieren, und speichern Sie Sie dann als DataSet.

Hinweis

Wenn Sie feststellen, dass Sie mehr Daten als erforderlich geladen haben, können Sie das zwischengespeicherte Dataset durch Lesen eines neuen Datasets überschreiben und dieses mit dem gleichen Namen wie die älteren, größeren Daten speichern.

Wie werden Daten, die aus verschiedenen geografischen Regionen geladen wurden, importiert ?

Wenn sich das BLOB-oder Tabellen Speicherkonto in einer anderen Region als der für das Machine Learning-Experiment verwendete Computeknoten befindet, ist der Datenzugriff möglicherweise langsamer. Außerdem wird Ihnen der Eingang und Ausgang von Daten für das Abonnement in Rechnung gestellt.

Warum werden einige Zeichen in meiner Tabelle nicht richtig angezeigt?

Azure Machine Learning unterstützt UTF-8-Codierung. Wenn in der Tabelle eine andere Codierung verwendet wird, werden die Zeichen möglicherweise nicht ordnungsgemäß importiert.

Gibt es zulässige Zeichen oder Zeichen, die während des Imports geändert werden?

Wenn Attributdaten Anführungszeichen oder Zeichenfolgen mit Escapezeichen enthalten, werden diese gemäß den Regeln für solche Zeichen in Microsoft Excel behandelt. Alle anderen Zeichen werden mithilfe der folgenden Spezifikationen als Richtlinie behandelt: RFC 4180.

Modulparameter

Name Range type Standard Standard
Datenquelle List Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann http, FTP, anonymes HTTPS oder FTPS, eine Datei in Azure BLOB Storage, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine lokale SQL Server Datenbank, eine Hive-Tabelle oder ein odata-Endpunkt sein.
Authentifizierungstyp PublicOrSas

Konto
tableauthtype Konto Geben Sie an, ob sich die Daten in einem öffentlichen Container befinden, auf den über die SAS-URL zugegriffen werden kann, oder ob Sie sich in einem privaten Speicherkonto befinden,

Öffentliche oder SAS-öffentliche Speicheroptionen

Name Range type Standard BESCHREIBUNG
Table URI any String
Rows to scan for property names via SAS integer
Zeilenanzahl für TopN über SAS

Konto-private Speicheroptionen

Name Range type Standard BESCHREIBUNG
Table account name
Table account key any SecureString
Tabellenname any
Rows to scan for property names TopN

ScanAll
Zeilenanzahl für TopN any integer

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Dataset mit den heruntergeladenen Daten.

Ausnahmen

Ausnahme Beschreibung
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0009 Eine Ausnahme tritt auf, wenn der Azure-Speicherkontoname oder der Containername falsch angegeben ist.
Fehler 0048 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046 Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Importieren von Daten
Daten exportieren
Aus Web-URL über HTTP importieren
Aus Hive-Abfrage importieren
Importieren aus Azure SQL-Datenbank
Aus Azure BLOB Storage importieren
Importieren von Datenfeed-Anbietern
Importieren aus lokaler SQL Server-Datenbank