Datentransformation – Beispiel und Aufteilung

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

In diesem Artikel werden die Module in Machine Learning Studio (klassisch) beschrieben, mit denen Sie Daten partitionieren oder beispielieren können.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Das Aufteilen und Sampling von Datasets sind wichtige Aufgaben beim maschinellen Lernen. Beispielsweise ist es üblich, Daten in Trainings- und Testsätze zu unterteilen, damit Sie ein Modell für ein zurückhaltende Dataset auswerten können. Die Stichprobenentnahme wird auch im Big Data-Bereich immer wichtiger, um eine angemessene Verteilung der Klassen in Ihren Trainingsdaten sicherzustellen. Die Stichprobenentnahme trägt auch dazu bei, dass Sie nicht mehr Daten verarbeiten, als benötigt werden.

Sie können Machine Learning Studio-Module (klassisch) verwenden, um die Art und Weise anzupassen, wie Sie Datasets aufteilen oder beispielen:

Filtern Sie Trainingsdaten basierend auf einem Attribut in den Daten.
Führen Sie geschichtete Stichprobenentnahmen durch, um die Klassenvariable gleichmäßig auf n Gruppen zu unterteilen.
Unterteilen von Quelldaten in ein Trainings- und Testdatenset mithilfe eines benutzerdefinierten Verhältnisses.
Wenden Sie reguläre Ausdrücke auf die Daten an, um ungültige Werte herausfiltern.

Auswählen des richtigen Vorgangs: Teilen oder Sampling

Machine Learning Studio (klassisch) stellt zwei Module zur Verfügung, die Aufgaben kapseln. Die Module klingen ähnlich, haben aber unterschiedliche Verwendungsmöglichkeiten und bieten ergänzende Funktionen. Es ist wahrscheinlich, dass Sie beide Module in einem Experiment verwenden, um die richtige Menge und die richtige Mischung aus Daten zu erhalten.

Als Nächstes vergleichen wir das Modul Split Data (Daten aufteilen) und das Modul Partition and Sample (Partition und Beispiel ), um zu sehen, für welche Aufgaben die einzelnen Module häufig verwendet werden.

Verwendungsmöglichkeiten des Moduls "Split Data"

Unterteilen Sie Daten in zwei Gruppen. Verwenden Sie das Modul Split Data . Das Modul erzeugt genau zwei Aufteilungen der Daten. Sie können die Bedingung, nach der die Daten aufgeteilt werden, und den Anteil der Daten angeben, die in die einzelnen Teilmengen aufgeteilt werden. Split Data speichert immer die Teilmenge der Daten, die die Bedingungen nicht erfüllen.
Zuordnen von Bezeichnungswerten gleichmäßig zu Datasets. Die Option zum Schichten in einer angegebenen Spalte wird von beiden Modulen unterstützt. Wenn Sie jedoch zwei Datasets erstellen möchten und hauptsächlich an der Bezeichnungsspalte interessiert sind, ist das Modul Split Data eine schnelle Lösung.

Beispiel für die Verwendung des Moduls "Split Data"

Angenommen, Sie haben ein sehr großes Dataset aus einer CSV-Datei importiert. Das Dataset enthält demografische Kundendaten. Sie möchten verschiedene Modelle für Kunden in verschiedenen Ländern erstellen, daher entscheiden Sie sich, die Daten mithilfe des Werts der Spalte zu Country-Region teilen. Führen Sie die folgenden Schritte aus, um diese Aufgabe auszuführen:

Fügen Sie das Modul Split Data hinzu, und geben Sie dann einen Ausdruck für das Feld Country-Region an. Der Rest der Daten ist in der sekundären Ausgabe verfügbar.
Fügen Sie eine weitere Instanz des Moduls Split Data hinzu.
Wiederholen Sie die Schritte 1 und 2. Geben Sie im Ausdruck für jede Iteration ein anderes Land an.

Das Modul Split Data unterstützt sowohl reguläre Ausdrücke für Textdaten als auch relative Ausdrücke für numerische Daten.

Das Modul Split Data bietet auch komplexe Funktionen, mit denen Sie spezialisierte Datasets unterteilen können. Verwenden Sie die -Funktionalität, um Empfehlungsmodelle zu erstellen und Vorhersagen zu generieren.

Verwendungsmöglichkeiten des Moduls "Partition and Sample"

Sampling. Verwenden Sie immer das Modul Partition and Sample . Das Modul bietet mehrere anpassbare Samplingmethoden, einschließlich mehrerer Optionen für geschichtete Stichproben.
Weisen Sie Fälle mehreren Gruppen zu. Verwenden Sie im Modul Partition andSample die Optionen Zu Fold zuweisen oder Fold auswählen.
Gibt nur eine Teilmenge der Daten zurück. Verwenden Sie das Modul Partition and Sample . Das Modul gibt Ihnen die angegebene Teilmenge der primären Ausgabe. Die verbleibenden Daten sind in einer sekundären Ausgabe verfügbar.
Sie können nur die ersten 2.000 Zeilen eines Datasets erhalten. Verwenden Sie das Modul Partition and Sample . Wählen Sie die Option Haupt aus. Dies ist besonders nützlich, wenn Sie ein neues Experiment testen und kurze Testversionen eines Workflows ausführen möchten.

Beispiel für die Verwendung des Moduls "Partition and Sample"

Das Modul Partition und Sample kann mehrere Partitionen der Daten generieren, nicht nur zwei. Gleichzeitig können verschiedene Samplingvorgänge durchgeführt werden.

Angenommen, Sie müssen nur 10 Prozent Ihrer Daten erhalten und gleichzeitig sicherstellen, dass die Verteilung des Zielattributs mit der Verteilung in den Quelldaten identisch ist. Führen Sie die folgenden Schritte aus, um diese Aufgabe auszuführen:

Fügen Sie das Modul Partition and Sample hinzu.
Wählen Sie den Samplingmodus aus, und geben Sie dann 10 % an.
Wählen Sie die Option geschichtete Stichprobenentnahme aus, und wählen Sie dann die Spalte aus, die das Zielattribut enthält.

Wenn Sie nicht alle Daten behalten müssen, verwenden Sie das Modul Partition and Sample . Die verbleibenden Daten sind weiterhin im Arbeitsbereich vorhanden, müssen aber nicht im Rahmen des Experiments weiter verarbeitet werden.

Erhöhen Sie die Anzahl der seltenen Fälle in einer Stichprobe, oder ausgleichen Sie die Fälle für einen Zielwert neu: Verwenden Sie das SMOTE-Modul .
Führen Sie eine Verringerung der Dimensionalität durch, indem Sie die Kombination von Features finden, die den Datenraum am besten darstellt: Verwenden Sie das Modul Principal Component Analysis .
Erstellen kompakter Features basierend auf einer Analyse von Features und Zählern: Verwenden Sie das Learning mit Counts.
Erstellen Sie eine Sicht oder Projektion, indem Sie nur die angegebenen Spalten verwenden. Spalten in einem Dataset entfernen oder ausblenden: Verwenden Sie die Module Select Columns in Dataset (Spalten im Dataset auswählen) und Apply SQL Transformation (SQL Transformation).
Anwenden komplexerer Datenfilter, Gruppierungen oder Transformationen: Verwenden Sie die Module Execute R Script und Apply SQL Transformation.

Liste der Module

Diese Kategorie umfasst die folgenden Module:

Partition und Beispiel: Erstellt mehrere Partitionen eines Datasets basierend auf der Stichprobenentnahme.
Daten aufteilen: Partitioniert die Zeilen eines Datasets in zwei unterschiedliche Sätze.

Datentransformation – Beispiel und Aufteilung

Auswählen des richtigen Vorgangs: Teilen oder Sampling

Verwendungsmöglichkeiten des Moduls "Split Data"

Beispiel für die Verwendung des Moduls "Split Data"

Verwendungsmöglichkeiten des Moduls "Partition and Sample"

Beispiel für die Verwendung des Moduls "Partition and Sample"

Liste der Module

Siehe auch

Zusätzliche Ressourcen

Datentransformation – Beispiel und Aufteilung

Auswählen des richtigen Vorgangs: Teilen oder Sampling

Verwendungsmöglichkeiten des Moduls "Split Data"

Beispiel für die Verwendung des Moduls "Split Data"

Verwendungsmöglichkeiten des Moduls "Partition and Sample"

Beispiel für die Verwendung des Moduls "Partition and Sample"

Zugehörige Aufgaben

Liste der Module

Siehe auch

Zusätzliche Ressourcen