Importieren aus Web-URL über HTTP

In diesem Artikel wird beschrieben, wie Sie das Import Data -Modul in Azure Machine Learning Studio (klassisch) verwenden, um Daten von einer öffentlichen Webseite zu lesen und in einem Machine Learning-Experiment zu verwenden.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Die folgenden Einschränkungen gelten für Daten, die auf einer Webseite veröffentlicht sind:

  • Die Daten müssen in einem der unterstützten Formate vorliegen: CSV, TSV, ArFF oder svmlight. Andere Daten verursachen Fehler.
  • Eine Authentifizierung ist nicht erforderlich und wird auch nicht unterstützt. Daten müssen öffentlich verfügbar sein.

Importieren von Daten über http

Zum Abrufen von Daten gibt es zwei Möglichkeiten: die Verwendung des Assistenten zum Einrichten der Datenquelle oder die manuelle Konfiguration der Datenquelle.

Verwenden des Assistenten zum Importieren von Daten

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul in Studio (klassisch) in der Kategorie Dateneingabe und-Ausgabe .

  2. Klicken Sie auf Launch Import Data Wizard (Datenimport-Assistenten starten), und wählen Sie „Web URL via HTTP“ aus.

  3. Fügen Sie die URL ein, und wählen Sie ein Datenformat aus.

  4. Wenn die Konfiguration fertig ist, klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie ausgewählte ausführen aus.

Starten Sie den Assistenten erneut, um eine vorhandene Datenverbindung zu bearbeiten. Der Assistent lädt alle vorherigen Konfigurationsdetails, damit Sie nicht ganz von vorne beginnen müssen.

Manuelles Festlegen der Eigenschaften im Modul „Daten importieren“

Die folgenden Schritte beschreiben, wie Sie die Importquelle manuell konfigurieren.

  1. Fügen Sie das Modul Import Data Ihrem Experiment hinzu. Sie finden das Modul in Studio (klassisch) in der Kategorie Dateneingabe und-Ausgabe .

  2. Wählen Sie als Datenquelle die Option Web URL via HTTP aus.

  3. Für URL geben oder fügen Sie die vollständige URL der Seite mit den Daten ein, die Sie laden möchten.

    Die URL muss die Website-URL und den vollständigen Pfad (mit Dateiname und Erweiterung) zu der Seite mit den zu ladenden Daten enthalten.

    Die folgende Seite enthält beispielsweise den Iris-Datensatz aus dem Repository für maschinelles Lernen der University of California, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Für Datenformat wählen Sie eines der unterstützten Datenformate aus der Liste aus.

    Es wird empfohlen, die Daten immer vorab zu überprüfen, um das Format zu bestimmen. Die UC Irvine-Seite verwendet das CSV-Format. Andere unterstützte Datenformate sind TSV, ARFF und SvmLight.

  5. Wenn die Daten im CSV- oder TSV-Format vorliegen, verwenden Sie die Option Die Datei enthält eine Kopfzeile, um anzugeben, ob die Quelldaten eine Kopfzeile enthalten oder nicht. Die Kopfzeile dient der Vergabe von Spaltennamen.

  6. Wählen Sie die Optionen zum Verwenden zwischengespeicherter Ergebnisse, wenn Sie nicht erwarten, dass sich die Daten stark ändern, oder wenn Sie vermeiden möchten, dass die Daten bei jeder Durchführung des Experiments neu geladen werden.

    Wenn diese Option ausgewählt ist, lädt das Experiment die Daten bei der ersten Ausführung des Moduls und verwendet danach eine zwischengespeicherte Version des Datasets.

    Wenn Sie das Dataset bei jeder Iterationen des Experiment Datasets erneut laden möchten, deaktivieren Sie die Option zwischengespeicherte Ergebnisse verwenden . Die Ergebnisse werden auch erneut geladen, wenn Änderungen an den Parametern der Import Datenvorgenommen wurden.

  7. Führen Sie das Experiment aus.

Ergebnisse

Klicken Sie nach Abschluss des Experiments auf das Ausgabedataset, und wählen Sie Visualisieren aus, um festzustellen, ob die Daten erfolgreich importiert wurden.

Beispiele

Sehen Sie sich diese Beispiele in den Azure AI Gallery von Machine Learning-Experimenten an, mit denen Daten aus öffentlichen Websites erhalten werden:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Kann ich Daten filtern, während Sie aus der Quelle gelesen werden.

Nein. Diese Option wird für diese Datenquelle nicht unterstützt.

Nachdem Sie die Daten in Azure Machine Learning Studio (klassisch) gelesen haben, können Sie das DataSet aufteilen, die Stichprobenentnahme verwenden und so weiter, um nur die gewünschten Zeilen zu erhalten:

  • Schreiben Sie einen einfachen r-Code in das Execute R Script-Skript , um einen Teil der Daten nach Zeilen oder Spalten zu erhalten.

  • Verwenden Sie das Modul Split Data mit einem relativen Ausdruck oder einem regulären Ausdruck, um die gewünschten Daten zu isolieren.

  • Wenn Sie mehr Daten geladen haben, als Sie benötigen, überschreiben Sie das zwischengespeicherte Dataset, indem Sie ein neues Dataset lesen und es mit demselben Namen speichern.

Wie kann ich vermeiden, dass die gleichen Daten unnötig erneut geladen werden.

Wenn sich die Quelldaten ändern, können Sie das DataSet aktualisieren und neue Daten hinzufügen, indem Sie Import Datenerneut ausführen.

Wenn Sie nicht jedes Mal, wenn Sie das Experiment ausführen, die Quelle erneut lesen möchten, aktivieren Sie die Option zwischengespeicherte Ergebnisse verwenden auf true. Wenn diese Option auf true festgelegt ist, überprüft das Modul, ob das Experiment zuvor mit derselben Quelle und denselben Eingabeoptionen ausgeführt wurde. Wenn eine vorherige Testlauf-Version gefunden wird, werden die Daten im Cache verwendet, anstatt die Daten aus der Quelle erneut zu laden.

Warum wurde eine zusätzliche Zeile am Ende meines Datasets hinzugefügt?

Wenn das Import Data -Modul auf eine Zeile mit Daten stößt, auf die eine leere oder eine nachfolgende neue Zeile folgt, wird eine zusätzliche Zeile am Ende der Tabelle hinzugefügt. Diese neue Zeile enthält die fehlenden Werte.

Der Grund für die Interpretation einer nachfolgenden neuen Zeile als neue Zeile besteht darin, dass Import Daten den Unterschied zwischen einer tatsächlichen leeren Zeile und einer leeren Zeile, die vom Benutzer erstellt wird, wenn Sie am Ende einer Datei drücken, nicht ermitteln können.

Da einige Machine Learning-Algorithmen fehlende Daten unterstützen und diese Zeile daher als einen Fall behandeln würden (was sich wiederum auf die Ergebnisse auswirken könnte), sollten Sie die Option " fehlende Daten bereinigen " verwenden, um auf fehlende Werte (insbesondere Zeilen, die vollständig leer sind) zu überprüfen und Sie nach Bedarf zu entfernen.

Vor der Überprüfung auf leere Zeilen sollten Sie das Dataset möglicherweise auch mithilfe von Split Dataaufteilen. Daraufhin werden Zeilen mit teilweise fehlenden Werten getrennt, die tatsächliche fehlende Werte in den Quelldaten darstellen. Verwenden Sie die Option Select head N rows, um den ersten Teil des Datasets in einen separaten Container aus der letzten Zeile zu lesen.

Warum werden einige Zeichen in meiner Quelldatei nicht richtig angezeigt?

Azure Machine Learning unterstützt die UTF-8-Codierung. Wenn in der Quelldatei eine andere Art der Codierung verwendet wurde, können die Zeichen möglicherweise nicht ordnungsgemäß importiert werden.

Modulparameter

Name Range type Standard BESCHREIBUNG
Datenquelle List Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann http, FTP, anonymes HTTPS oder FTPS, eine Datei in Azure BLOB Storage, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine lokale SQL Server Datenbank, eine Hive-Tabelle oder ein odata-Endpunkt sein.
URL any String Keine URL für http
Datenformat CSV

TSV

ARFF

SvmLight
Datenformat CSV Dateityp der HTTP-Quelle
CSV oder TSV hat Kopfzeile TRUE/FALSE Boolean false Gibt an, ob CSV-oder TSV-Dateien eine Kopfzeile haben.
Verwenden von zwischengespeicherten Ergebnissen TRUE/FALSE Boolean FALSE Das Modul wird nur ausgeführt, wenn kein gültiger Cache vorhanden ist. Andernfalls werden zwischengespeicherte Daten aus vorheriger Ausführung verwendet.

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Dataset mit den heruntergeladenen Daten.

Ausnahmen

Ausnahme Beschreibung
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0048 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046 Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Importieren von Daten
Daten exportieren
Aus Hive-Abfrage importieren
Importieren aus Azure SQL-Datenbank
Aus Azure-Tabelle importieren
Aus Azure BLOB Storage importieren
Importieren von Datenfeed-Anbietern
Importieren aus lokaler SQL Server-Datenbank