Importieren aus Datenfeedanbietern

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

In diesem Artikel wird beschrieben, wie Sie das Import Data-Modul in Machine Learning Studio (klassisch) verwenden, um Im OData-Format bereitgestellte Daten in ein Machine Learning-Experiment zu importieren.

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Das Erstellen eines OData-Endpunkts für ein DataSet ist eine Möglichkeit, ein Datenmodell für die Nutzung über die URL verfügbar zu machen. Sie können auch angeben, welche OData-Vorgänge der Endpunkt unterstützt. Weitere Informationen zum Erstellen von Odata Endpunkten finden Sie unter OData v4 (ASP.NET).

Importieren von Daten aus einem Feed

Es wird dringend empfohlen, vor dem Importieren Datenprofile zu erstellen, um sicherzustellen, dass das Schema wie erwartet ausfällt. Beim Importvorgang werden einige Kopfzeilen durchsucht, um das Schema zu bestimmen, aber spätere Zeilen können zusätzliche Spalten oder Daten enthalten, die Fehler verursachen.

Verwenden des Assistenten zum Importieren von Daten

Das Modul verfügt über einen neuen Assistenten, der Sie bei der Auswahl einer Speicheroption unterstützt. Verwenden Sie den Assistenten, um aus vorhandenen Abonnements und Konten auszuwählen und schnell alle Optionen zu konfigurieren.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul in Studio (klassisch) in der Kategorie Dateneingabe und -ausgabe .

  2. Klicken Sie auf Datenimport-Assistent starten, und befolgen Sie die Anweisungen.

  3. Klicken Sie nach Abschluss der Konfiguration mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus, um die Daten tatsächlich in Ihr Experiment zu kopieren.

Wenn Sie eine vorhandene Datenverbindung bearbeiten müssen, lädt der Assistent alle vorherigen Konfigurationsdetails, sodass Sie nicht von Grund auf neu starten müssen.

Manuelles Festlegen der Eigenschaften im Modul „Daten importieren“

Sie können die Importquelle auch manuell konfigurieren.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden dieses Modul in Studio (klassisch) in der Kategorie Dateneingabe und -ausgabe .

  2. Wählen Sie unter Datenquelle die Option Datenfeedanbieter aus.

  3. Wählen Sie unter Datentyp den Feedtyp aus. Derzeit werden nur OData-Endpunkte unterstützt.

  4. Fügen Sie unter Quell-URL die URL einer Website ein, die Daten im erforderlichen Format bereitstellt.

    Die folgende Anweisung ruft beispielsweise die Liste der Produkte aus der Northwind-Beispieldatenbank ab:

    https://services.odata.org/northwind/northwind.svc/Products

    Weitere Informationen finden Sie unter OData-Syntax.

  5. Wählen Sie die Option Zwischengespeicherte Ergebnisse verwenden aus, wenn Sie die Daten nach dem ersten Mal nicht erneut laden müssen. Dies ist eine gute Option, wenn nicht erwartet wird, dass sich die Daten zwischen den Ausführungen des Experiments ändern.

    Wenn keine weiteren Änderungen an Modulparametern vorgenommen werden, lädt das Experiment die Daten bei der ersten Ausführung des Moduls und verwendet anschließend eine zwischengespeicherte Version des Datasets.

    Wenn Sie die Daten regelmäßig aktualisieren müssen, deaktivieren Sie diese Option.

  6. Führen Sie das Experiment aus.

Ergebnisse

Klicken Sie nach Abschluss des Experiments auf das Ausgabedataset, und wählen Sie Visualisieren aus, um festzustellen, ob die Daten erfolgreich importiert wurden.

Wenn Daten importieren die Feeddaten in Studio (klassisch) lädt, leitet sie den Datentyp jeder Spalte basierend auf den darin enthaltenen Werten ab, entweder numerisch oder kategorisch.

  • Sofern eine Spaltenüberschrift vorhanden ist, wird diese zur Benennung der Spalten im Ausgabedataset verwendet.

  • Wenn keine Spaltenüberschriften in den Daten vorhanden sind, werden neue Spaltennamen im Format col1, col2,… ,colngeneriert.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

OData-Syntax

Die Abfrage muss eine flache Tabelle zurückgeben. Das Abflachen geschachtelter OData-Datensätze wird nicht unterstützt.

Einige Spalten, die in OData-Feeds enthalten sind, verfügen möglicherweise über Datentypen, die in Studio (klassisch) nicht unterstützt werden, z. B. Dezimalstellen. Sie können die Daten als Zeichenfolgen erfassen und später mithilfe der Module R-Skript ausführen oder Metadaten-Editor konvertieren.

Weitere Informationen zur OData-Syntax und zu URLs finden Sie unter Odata.org – URI-Konventionen.

Häufig gestellte Fragen

Kann ich Daten filtern, während sie aus der Quelle gelesen werden?

Das Import Data-Modul unterstützt im Allgemeinen keine Filterung, da Daten gelesen werden. Sie können jedoch eine Filterbedingung als Teil der Feedressourcen-URL angeben.

Verwenden Sie anweisungen, die vom OData-Protokoll unterstützt werden, um Daten aus dem Feed zu filtern. Diese URL verwendet beispielsweise den $filter Ausdruck , um nur die Bestellungen abzurufen, die sich auf den Mitarbeiter beziehen, dessen ID gleich 1 ist.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Weitere Beispiele für die Filtersyntax finden Sie unter Verwenden von Filterausdrücken in OData-URIs.

Alternativ können Sie alle Daten abrufen und filtern, nachdem Sie sie in Machine Learning Studio (klassisch) geladen haben:

  • Verwenden Sie ein benutzerdefiniertes R-Skript, um nur die gewünschten Daten abzurufen.

  • Verwenden Sie das Modul Split Data mit einem relativen ausdruck oder einem regulären Ausdruck, um die gewünschten Daten zu isolieren, und speichern Sie sie dann als Dataset.

Hinweis

Wenn Sie feststellen, dass Sie mehr Daten als erforderlich geladen haben, können Sie das zwischengespeicherte Dataset durch Lesen eines neuen Datasets überschreiben und dieses mit dem gleichen Namen wie die älteren, größeren Daten speichern.

Ich erhalte den Fehler Anmeldeinformationen sind erforderlich, um eine Verbindung mit der OData-Quelle herzustellen. Aktualisieren Sie die Anmeldeinformationen, und geben Sie sie an, um fortzufahren. Wie kann ich Anmeldeinformationen angeben?**

Das Import Data-Modul unterstützt nur OData-Endpunkte mit anonymem Zugriff. Wenn der OData-Dienst Anmeldeinformationen erfordert, können Sie die Daten nicht mithilfe der OData-Option abrufen.

Wenn sich der Dienst jedoch in derselben Domäne befindet, kann die Authentifizierung manchmal automatisch ohne Benutzereingabe erfolgen.

Als Problemumgehung können Sie PowerQuery oder PowerPivot verwenden, um Feeddaten zu lesen und dann die Daten aus Excel abzurufen.

Wie kann ich vermeiden, dass dieselben Daten unnötigerweise erneut geladen werden?

Wenn sich die Quelldaten ändern, können Sie das Dataset aktualisieren und neue Daten hinzufügen, indem Sie Import Data erneut ausführen. Wenn die Daten jedoch nicht bei jeder Ausführung des Experiments erneut aus der Quelle gelesen werden sollen, legen Sie die Option Use cached results (Zwischengespeicherte Ergebnisse verwenden) auf TRUE fest. Wenn diese Option auf TRUE festgelegt ist, überprüft das Modul, ob das Experiment zuvor mit der gleichen Quelle und denselben Eingabeoptionen ausgeführt wurde. Wenn eine vorherige Ausführung gefunden wird, werden die Daten im Cache verwendet, anstatt die Daten erneut aus der Quelle zu laden.

Warum erhalte ich die Fehlermeldung "Typ Decimal wird nicht unterstützt"?

Der decimal Datentyp wird in Machine Learning nicht unterstützt. Der Grund dafür ist, dass Daten importieren keine Konvertierungen automatisch ausführen kann, die zu einem Genauigkeitsverlust führen würden.

Weitere Informationen zu unterstützten Datentypen finden Sie unter Moduldatentypen.

Als Problemumgehung können Sie die Daten als Zeichenfolgendatentyp lesen und dann Metadaten bearbeiten verwenden, um die Dezimalstellen vor dem Lesen der Daten in unterstützte Daten zu konvertieren.

Warum werden einige Zeichen im Feed nicht ordnungsgemäß angezeigt?

Machine Learning unterstützt die UTF-8-Codierung. Wenn Ihre Quelle einen anderen Codierungstyp verwendet, werden die Zeichen möglicherweise nicht ordnungsgemäß importiert.

Als Problemumgehung können Sie die Daten in einer CSV-Datei in Azure Table Storage oder Azure Blob Storage speichern. Verwenden Sie dann die Option CSV mit Codierung , um Parameter für benutzerdefinierte Trennzeichen, die Codepage usw. anzugeben.

Modulparameter

Name Range type Standard Beschreibung
Datenquellen- Liste Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann HTTP, FTP, anonymes HTTPS oder FTPS, eine Datei in Azure BLOB Storage, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine lokale SQL Server-Datenbank, eine Hive-Tabelle oder ein OData-Endpunkt sein.
Data content type List (subset) URL-Inhalt OData Datenformattyp
Quell-URL any Zeichenfolge URL für Power Query Datenquelle
Zwischengespeicherte Ergebnisse verwenden TRUE/FALSE Boolean FALSE description

Ausgaben

Name Type Beschreibung
Ergebnisdataset Datentabelle Dataset mit den heruntergeladenen Daten.

Ausnahmen

Ausnahme Beschreibung
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Daten importieren
Daten exportieren
Importieren aus Web-URL über HTTP
Importieren aus Hive-Abfrage
Importieren aus Azure SQL-Datenbank
Importieren aus Azure Table
Importieren aus Azure Blob Storage
Importieren aus lokaler SQL Server-Datenbank