Importieren aus einer Azure-Tabelle

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

In diesem Artikel wird beschrieben, wie Sie das Import Data-Modul in Machine Learning Studio (klassisch) verwenden, um strukturierte oder teilweise strukturierte Daten aus Azure-Tabellen in ein Machine Learning-Experiment zu importieren.

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Der Azure-Tabellenspeicherdienst ist ein Datenverwaltungsdienst in Azure, der große Mengen strukturierter, nicht relationaler Daten speichern kann. Es handelt sich um einen NoSQL-Datenspeicher, der authentifizierte Aufrufe von innerhalb und außerhalb von Azure akzeptiert.

Für den Import aus Azure Table Storage müssen Sie einen von zwei Kontotypen auswählen: ein Speicherkonto, auf das über eine SAS-URL zugegriffen werden kann, oder ein privates Speicherkonto, für das Anmeldeinformationen erforderlich sind.

Importieren von Daten aus Azure-Tabellen

Verwenden des Assistenten zum Importieren von Daten

Das Modul verfügt über einen neuen Assistenten, mit dem Sie eine Speicheroption auswählen, aus vorhandenen Abonnements und Konten auswählen und schnell alle Optionen konfigurieren können.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul unter Dateneingabe und -ausgabe.

  2. Klicken Sie auf Datenimport-Assistent starten, und befolgen Sie die Anweisungen.

  3. Klicken Sie nach Abschluss der Konfiguration mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus, um die Daten tatsächlich in Ihr Experiment zu kopieren.

Wenn Sie eine vorhandene Datenverbindung bearbeiten müssen, lädt der Assistent alle vorherigen Konfigurationsdetails, sodass Sie nicht von Grund auf neu starten müssen.

Manuelles Festlegen der Eigenschaften im Modul „Daten importieren“

Die folgenden Schritte beschreiben, wie Sie die Importquelle manuell konfigurieren.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden dieses Modul in der Gruppe Dateneingabe und -ausgabe in der Liste der Experimentelemente in Machine Learning Studio (klassisch).

  2. Wählen Sie unter Datenquelle die Option Azure-Tabelle aus.

  3. Wählen Sie Öffentlich (SAS-URL) als Authentifizierungstyp aus, wenn Sie wissen, dass die Informationen als öffentliche Datenquelle bereitgestellt wurden. Eine SAS-URL ist eine zeitgebundene Zugriffs-URL, die Sie mithilfe eines Azure Storage-Hilfsprogramms generieren können.

    Andernfalls wählen Sie Konto aus.

  4. Wenn sich Ihre Daten in einem öffentlichen Blob befinden, auf den über eine SAS-URL zugegriffen werden kann, benötigen Sie keine zusätzlichen Anmeldeinformationen, da die URL-Zeichenfolge alle Informationen enthält, die für den Download und die Authentifizierung erforderlich sind.

    Geben oder fügen Sie im Feld Table SAS URI (Tabellen-SAS-URI ) den vollständigen URI ein, der das Konto und das öffentliche Blob definiert.

    Hinweis

    Auf einer Seite, auf die über SAS-URL zugegriffen werden kann, können Daten nur in folgenden Formaten gespeichert werden: CSV, TSV und ARFF.

  5. Wenn sich Ihre Daten in einem privaten Konto befinden, müssen Sie Anmeldeinformationen angeben, einschließlich des Kontonamens und des Schlüssels.

    • Geben Oder fügen Sie unter Tabellenkontoname den Namen des Kontos ein, das das Blob enthält, auf das Sie zugreifen möchten.

      Wenn die vollständige URL des Speicherkontos z.B. https://myshared.table.core.windows.net lautet, geben Sie myshared ein.

    • Fügen Sie unter Tabellenkontoschlüssel den Zugriffsschlüssel ein, der dem Speicherkonto zugeordnet ist.\

      Wenn Sie den Zugriffsschlüssel nicht kennen, lesen Sie den Abschnitt "Anzeigen, Kopieren und erneuten Generieren von Speicherzugriffsschlüsseln" in diesem Artikel: Informationen zu Azure Storage-Konten.

    • Geben Sie unter Tabellenname den Namen der spezifischen Tabelle ein, die Sie lesen möchten.

  6. Wählen Sie eine Option aus, die angibt, wie viele Zeilen von Import Data überprüft werden sollen. Daten importieren verwendet die Überprüfung, um die Liste der Spalten in den Daten abzurufen und zu bestimmen, welche Spaltendatentypen verwendet werden sollen.

    • TopN: Scannen Sie nur die angegebene Anzahl von Zeilen, beginnend am Anfang des Datasets.

      Standardmäßig werden 10 Zeilen überprüft, aber Sie können diesen Wert mithilfe der Option Zeilenanzahl für TopN erhöhen oder verringern.

      Wenn die Daten homogen und vorhersagbar sind, wählen Sie TopN aus, und geben Sie eine Zahl für N ein. Bei großen Tabellen kann dies zu schnelleren Lesezeiten führen.

    • ScanAll: Alle Zeilen in der Tabelle überprüfen.

      Wenn die Daten mit Sätzen von Eigenschaften strukturiert sind, die abhängig von der Tiefe und Position der Tabelle variieren, wählen Sie die Option ScanAll, um alle Zeilen zu überprüfen. Dadurch wird die Integrität der resultierenden Eigenschafts- und Metadatenkonvertierung sichergestellt.

  7. Geben Sie an, ob die Daten bei jeder Ausführung des Experiments aktualisiert werden sollen. Wenn Sie die Option Zwischengespeicherte Ergebnisse verwenden (Standardeinstellung) auswählen, liest das Import Data-Modul Daten aus der angegebenen Quelle, wenn das Experiment zum ersten Mal ausgeführt wird, und speichert die Ergebnisse anschließend zwischen. Wenn Änderungen an den Parametern des Moduls Import Data vorgenommen werden, werden die Daten erneut geladen.

    Wenn Sie diese Option deaktivieren, werden die Daten bei jeder Ausführung des Experiments aus der Quelle gelesen, unabhängig davon, ob die Daten identisch sind oder nicht.

Beispiele

Beispiele für die Verwendung des Moduls Export Data finden Sie im Azure KI-Katalog.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Wie kann ich vermeiden, dass dieselben Daten unnötigerweise erneut geladen werden?

Wenn sich die Quelldaten ändern, können Sie das Dataset aktualisieren und neue Daten hinzufügen, indem Sie Import Data erneut ausführen. Wenn die Daten jedoch nicht bei jeder Ausführung des Experiments erneut aus der Quelle gelesen werden sollen, legen Sie die Option Use cached results (Zwischengespeicherte Ergebnisse verwenden) auf TRUE fest. Wenn diese Option auf TRUE festgelegt ist, überprüft das Modul, ob das Experiment zuvor mit der gleichen Quelle und denselben Eingabeoptionen ausgeführt wurde. Wenn eine vorherige Ausführung gefunden wird, werden die Daten im Cache verwendet, anstatt die Daten erneut aus der Quelle zu laden.

Kann ich Daten filtern, während sie aus der Quelle gelesen werden?

Das Import Data-Modul unterstützt keine Filterung, wenn Daten gelesen werden. Die Ausnahme ist das Lesen aus Datenfeeds, mit denen Sie manchmal eine Filterbedingung als Teil der Feed-URL angeben können.

Sie können Daten jedoch ändern oder filtern, nachdem Sie sie in Machine Learning Studio (klassisch) gelesen haben:

  • Verwenden Sie ein benutzerdefiniertes R-Skript, um Daten zu ändern oder zu filtern.
  • Verwenden Sie das Modul Split Data mit einem relativen ausdruck oder einem regulären Ausdruck, um die gewünschten Daten zu isolieren, und speichern Sie sie dann als Dataset.

Hinweis

Wenn Sie feststellen, dass Sie mehr Daten als erforderlich geladen haben, können Sie das zwischengespeicherte Dataset durch Lesen eines neuen Datasets überschreiben und dieses mit dem gleichen Namen wie die älteren, größeren Daten speichern.

Wie verarbeitet Import Data Daten, die aus verschiedenen geografischen Regionen geladen wurden?

Wenn sich das Blob- oder Tabellenspeicherkonto in einer anderen Region als der Computeknoten befindet, der für das Machine Learning-Experiment verwendet wird, ist der Datenzugriff möglicherweise langsamer. Darüber hinaus werden Ihnen die ein- und ausgehenden Daten für das Abonnement in Rechnung gestellt.

Warum werden einige Zeichen in meiner Tabelle nicht ordnungsgemäß angezeigt?

Machine Learning unterstützt UTF-8-Codierung. Wenn ihre Tabelle eine andere Codierung verwendet, werden die Zeichen möglicherweise nicht ordnungsgemäß importiert.

Gibt es unzulässige Zeichen oder Zeichen, die während des Imports geändert werden?

Wenn Attributdaten Anführungszeichen oder Zeichenfolgen mit Escapezeichen enthalten, werden diese gemäß den Regeln für solche Zeichen in Microsoft Excel behandelt. Alle anderen Zeichen werden anhand der folgenden Spezifikationen als Richtlinie behandelt: RFC 4180.

Modulparameter

Name Range type Standard Standard
Datenquellen- Liste Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann HTTP, FTP, anonymes HTTPS oder FTPS, eine Datei in Azure BLOB Storage, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine lokale SQL Server-Datenbank, eine Hive-Tabelle oder ein OData-Endpunkt sein.
Authentifizierungsart PublicOrSas

Konto
tableAuthType Konto Geben Sie an, ob sich die Daten in einem öffentlichen Container befinden, auf den über die SAS-URL zugegriffen werden kann, oder ob sie sich in einem privaten Speicherkonto befinden, für das eine Authentifizierung für den Zugriff erforderlich ist.

Öffentlich oder SAS: Optionen für öffentlichen Speicher

Name Range type Standard Beschreibung
Table URI any Zeichenfolge
Rows to scan for property names via SAS integer
Zeilenanzahl für TopN über SAS

Konto – Optionen für privaten Speicher

Name Range type Standard Beschreibung
Table account name
Table account key any SecureString
Tabellenname any
Rows to scan for property names TopN

ScanAll
Zeilenanzahl für TopN any integer

Ausgaben

Name Type Beschreibung
Ergebnisdataset Datentabelle Dataset mit den heruntergeladenen Daten.

Ausnahmen

Ausnahme Beschreibung
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0009 Eine Ausnahme tritt auf, wenn der Azure-Speicherkontoname oder der Containername falsch angegeben ist.
Fehler 0048 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046 Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Daten importieren
Daten exportieren
Importieren aus Web-URL über HTTP
Importieren aus Hive-Abfrage
Importieren aus Azure SQL-Datenbank
Importieren aus Azure Blob Storage
Importieren aus Datenfeedanbietern
Importieren aus lokaler SQL Server-Datenbank