Data Format Conversions

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

In diesem Artikel werden die Module aufgelistet, die in Azure Machine Learning Studio (klassisch) bereitgestellt werden, mit denen Daten in verschiedene in Machine Learning verwendete Dateiformate umgerechnet werden.

Folgende Formate werden unterstützt:

  • Das DataSet -Format, das in Azure Machine Learning verwendet wird.
  • Das ArFF -Format, das von WEKAverwendet wird. WEKA ist eine auf Java basierende Open-Source-Gruppe von Machine Learning-Algorithmen.
  • Das svmlight -Format. Das svmlight-Format wurde für das svmlight -Framework für Machine Learning entwickelt. Sie kann auch von vowpal wabbit verwendet werden.
  • Die durch Tabstopps getrennten (TSV) und durch Trennzeichen getrennten Flatfileformate (CSV) , die von den meisten relationalen Datenbanken unterstützt werden. Diese Formate werden auch von R und python häufig unterstützt.

Beim Konvertieren von Daten in diese Formate können Sie Ergebnisse und Daten leichter zwischen verschiedenen Machine Learning-Frameworks oder Speicher Mechanismen verschieben.

Hinweis

Diese Daten Konvertierungs Module konvertieren nur das gesamte Dataset in ein angegebenes Format. Wenn Sie Umwandlung, abschneiden, Konvertierung von Datums-/Uhrzeitformaten oder eine andere Bearbeitung der Werte durchführen müssen, verwenden Sie die Module in der Daten Transformation, oder sehen Sie sich die Liste verwandter Aufgabenan.

Gängige Szenarien für die Datenkonvertierung

Normalerweise verwenden Sie die Module für die Datenkonvertierung, wenn Sie Daten aus einem Azure Machine Learning Experiment in ein anderes Machine Learning-Tool oder eine andere Plattform verschieben müssen. Sie können die Module auch verwenden, um Daten aus Machine Learning in einem Format zu exportieren, das von einer Datenbank oder anderen Tools verwendet werden kann. Beispiel:

Aufgabe Option
Sie müssen ein zwischen Dataset speichern, das in Excel verwendet werden soll, oder in eine Datenbank importieren. Verwenden Sie das CSV -Modul oder das TSV -Modul, um die Daten im richtigen Format vorzubereiten. Anschließend können Sie die Daten entweder herunterladen oder in Azure Storage speichern.
Sie möchten Daten aus Ihrem Experiment in R-oder python-Code wieder verwenden. Verwenden Sie das CSV -Modul oder das TSV -Modul, um die Daten vorzubereiten. Klicken Sie dann mit der rechten Maustaste auf das konvertierte DataSet, um den Python-Code zu erhalten, den Sie zum Zugreifen auf das DataSet benötigen.
Sie portieren das Experiment und die Daten zwischen WEKA und Azure Machine Learning. Verwenden Sie das ArFF -Modul, um die Daten vorzubereiten. Anschließend können Sie die Ergebnisse herunterladen.
Sie müssen Daten im svmlight-Framework vorbereiten. Verwenden Sie das Modul Convert to svmlight , um die Daten vorzubereiten. Anschließend können Sie die resultierenden Daten herunterladen.
Erstellen Sie Daten für die Verwendung mit vowpal wabbit. Verwenden Sie das svmlight -Format. Ändern Sie dann die Dateien wie im Artikel beschrieben. Speichern Sie die Datei in Azure BLOB Storage, um Sie mit einem vowpal wabbit-Modul in Azure Machine Learning zu verwenden.
Die Daten befinden sich nicht in einem Tabellenformat. Mit dem Modul Convert to DataSet können Sie es in ein Datasetformat umwandeln.

Wenn Sie Daten in Azure Machine Learning importieren oder Daten in einzelne Spalten transformieren müssen, verwenden Sie diese Module, bevor Sie die Datenkonvertierung durchführen:

Aufgabe Option
Importieren Sie Daten von meinem Computer in Azure Machine Learning. Laden Sie Datasets im CSV-Format hoch, wie in Importieren von Trainingsdaten in Azure Machine Learning Studio (klassisch)beschrieben.
Importieren Sie Daten aus einer clouddatenquelle, einschließlich Hadoop oder Azure. Verwenden Sie das Modul Import Data .
Speichern Sie Machine Learning-Datasets in Azure BLOB Storage, einem Hadoop-Cluster oder einem anderen cloudbasierten Speicher. Verwenden Sie das Modul zum Exportieren von Daten .
Ändern des Datentyps von Spalten oder Umwandeln von Spalten in ein anderes Format oder einen anderen Typ. Verwenden Sie in Azure Machine Learning die Module Edit Metadata oder Apply SQL Transformation . Wenn Sie mit R oder python vertraut sind, verwenden Sie die Module Execute Python Script oder Execute R Script .
Runden, Gruppieren oder Normalisieren Sie numerische Daten. Verwenden Sie den Vorgang Math anwenden, Gruppieren Sie Daten in Behälter, oder Normalisieren Sie Daten .

Liste der Module

Die Kategorie " Daten Format Konvertierungen " umfasst folgende Module:

  • Convert to ArFF: konvertiert die Dateneingabe in das vom WEKA-Toolset verwendete Attribut Beziehungs Dateiformat.
  • In CSV konvertieren: konvertiert ein Dataset in ein Format mit Komma getrennten Werten.
  • Konvertieren in DataSet: konvertiert die Dateneingabe in das interne Datasetformat, das von Azure Machine Learning verwendet wird.
  • In svmlight konvertieren: konvertiert die Dateneingabe in das Format, das vom svmlight-Framework verwendet wird.
  • In TSV konvertieren: konvertiert die Dateneingabe in das durch Tabstopps getrennte Format.

Weitere Informationen