Teilen von Daten

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Partitioniert die Zeilen eines Datasets in zwei unterschiedliche Sätze

Kategorie: Datentransformation/Beispiel und Aufteilung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Thema wird beschrieben, wie Sie das Modul Split Data in Machine Learning Studio (klassisch) verwenden, um ein Dataset in zwei unterschiedliche Sätze aufzuteilen.

Dieses Modul ist besonders hilfreich, wenn Sie Daten in Trainings- und Testsätze aufteilen müssen. Sie können außerdem anpassen, wie die Daten aufgeteilt werden sollen. Einige Optionen unterstützen die zufällige Anordnung von Daten, andere sind auf einen bestimmten Daten- oder Modelltyp zugeschnitten.

Konfigurieren von Split Data

Tipp

Informieren Sie sich vor der Wahl des Aufteilungsmodus über alle Optionen, um den benötigten Aufteilungstyp zu ermitteln. Wenn Sie den Aufteilungsmodus ändern, können alle anderen Optionen zurückgesetzt werden.

  1. Fügen Sie ihrem Experiment in Studio das Modul Split Data hinzu. Sie finden dieses Modul unter Data Transformation (Datentransformation) in der Kategorie Sample and Split (Stichprobe entnehmen und aufteilen).

  2. Aufteilungsmodus: Wählen Sie einen der folgenden Modi aus, je nachdem, welchen Datentyp Sie haben und wie Sie sie teilen möchten. Jeder Aufteilungsmodus verfügt über unterschiedliche Optionen. Klicken Sie auf die folgenden Themen, um ausführliche Anweisungen und Beispiele zu erhalten.

    • Zeilen aufteilen: Verwenden Sie diese Option, wenn Sie Daten einfach in zwei Teile aufteilen möchten. Sie können angeben, wie viel Prozent Daten jeweils in einem Teil enthalten sein sollen. Die Standardeinstellung beträgt „50:50“.

      Sie können Zeilen für die einzelnen Gruppen auch nach dem Zufallsprinzip auswählen und geschichtete Stichproben verwenden. Bei geschichteten Stichproben müssen Sie eine einzelne Datenspalte auswählen, für die Werte gleichmäßig auf zwei Ergebnisdatasets aufgeteilt werden sollen.

    • Empfehlungsaufteilung: Wählen Sie diese Option immer aus, wenn Sie Daten für die Verwendung in einem Empfehlungssystem vorbereiten. So können Sie Datensätze in Trainings- und Testgruppen unterteilen und gleichzeitig sicherstellen, dass wichtige Werte wie Benutzer-Element-Paare oder Bewertungen gleichmäßig auf die Gruppen aufgeteilt werden.

    • Regular Expression Split (Nach regulärem Ausdruck aufteilen): Wählen Sie diese Option, wenn Sie Ihr Dataset danach aufteilen möchten, ob ein Wert in einer einzelnen Spalte enthalten ist.

      Bei Stimmungsanalysen können Sie beispielsweise überprüfen, ob ein bestimmter Produktname in einem Textfeld enthalten ist. Anschließend können Sie das Dataset in Zeilen aufteilen, die den gewünschten Produktnamen enthalten bzw. nicht enthalten.

    • Relative Expression Split (Relative Ausdrucksteilung):Verwenden Sie diese Option, wenn Sie eine Bedingung auf eine Ziffernspalte anwenden möchten. Die Ziffer kann für ein Datums-/Uhrzeitfeld, eine Spalte mit Alters- oder Währungsangaben oder sogar für einen Prozentsatz stehen. Beispielsweise ist es möglich, das Dataset nach den Kosten der einzelnen Posten zu unterteilen, Personen nach Alter zu gruppieren oder Daten nach einem Kalenderdatum aufzuteilen.

Anforderungen

  • Split Data kann maximal zwei Datasetsätze gleichzeitig erstellen, und diese Sätze müssen exklusiv sein.

    Wenn Sie also über eine komplexe Aufteilung mit mehreren Bedingungen und Ausgaben verfügen, müssen Sie möglicherweise mehrere Split Data-Module miteinander verketten.

    Alternativ können Sie eine CASE-Anweisung und das Modul Apply SQL Transformation verwenden.

  • Dieses Modul löscht keine Daten und entfernt sie nicht aus dem Dataset. Die Daten werden lediglich wie angegeben in die erste und zweite Ausgabe des Moduls aufgeteilt.

  • Das Aufteilen von Daten für ein Empfehlungssystem erfordert einige zusätzliche Anforderungen. Im Allgemeinen kann das Dataset nur aus Benutzer-Element-Paaren oder Dreiern der Benutzer-Element-Bewertung bestehen. Daher kann das Modul Split Data nicht für Datasets mit mehr als drei Spalten verwendet werden, um Verwechslungen mit Featuredaten zu vermeiden. Wenn Ihr Dataset zu viele Spalten enthält, erhalten Sie möglicherweise diesen Fehler:

    Fehler 0022: Anzahl ausgewählter Spalten im Eingabedataset entspricht nicht x

    Als Problemumgehung können Sie Spalten im Dataset auswählen verwenden, um einige Spalten zu entfernen, und die Spalten später mithilfe von Spalten hinzufügen hinzufügen. Wenn Ihr Dataset über viele Features verfügt, die Sie im Modell verwenden möchten, teilen Sie das Dataset alternativ mit einer anderen Option auf, und trainieren Sie das Modell mit Train Model anstelle von Train Matchbox Recommender.

Beispiele

Beispiele für die Verwendung des Moduls Split Data finden Sie im Azure KI-Katalog:

  • Kreuzvalidierung für binäre Klassifizierung: Nicht jugendfreies Dataset: Es wird eine Samplingrate von 20 % angewendet, um ein kleineres zufällig erfasstes Dataset zu erstellen. (Das ursprüngliche Census-Dataset verfügt über 30.000 Zeilen. Das Trainingsdataset weist ungefähr 6500 Zeilen auf). Das Dataset wird auf fehlende Werte bereinigt und anschließend an fünf verschiedene Modelle zum Training und zur Kreuzvalidierung übergeben.

Technische Hinweise

Die folgenden Anforderungen gelten für alle Verwendungen von Split Data:

  • Das Eingabedataset muss mindestens zwei Zeilen enthalten, andernfalls wird ein Fehler ausgelöst.
  • Wenn Sie die Option verwenden, in der die gewünschte Anzahl von Zeilen angegeben wird, muss die angegebene Anzahl eine positive ganze Zahl sein, die kleiner gleich der Gesamtzahl der Zeilen im Dataset ist.
  • Wenn Sie eine Anzahl als Prozentzahl angeben oder eine Zeichenfolge verwenden, die das Zeichen "%" enthält, wird der Wert als Prozentsatz interpretiert. Alle Prozentwerte müssen im Bereichs (0, 100) liegen, wobei die Werte 0 und 100 ausgeschlossen sind.
  • Wenn Sie eine Anzahl oder eine Prozentzahl angeben, die eine Gleitkommazahl kleiner 1 ist, und nicht das Prozentzeichen (%) verwenden, wird die Zahl als proportionaler Wert interpretiert.
  • Wenn Sie die Option für eine geschichtete Aufteilung verwenden, können die Ausgabedatasets durch Auswahl einer Strata-Spalte weiter nach Untergruppen unterteilt werden.

Erwartete Eingaben

Name Type Beschreibung
Dataset Datentabelle Das aufzuteilende Dataset

Modulparameter

Name Typ Range Optional BESCHREIBUNG Standard
Aufteilungsmodus Split mode Teilen von Zeilen, Recommender Split, Regulärer Ausdruck oder relativer Ausdruck Erforderlich Aufteilen von Zeilen Wählen Sie die Methode zum Aufteilen des Datasets aus.

Ausgaben

Name Type Beschreibung
Results dataset1 Datentabelle Das Dataset, das die ausgewählten Zeilen enthält
Results dataset2 Datentabelle Dataset, das alle anderen Zeilen enthält

Siehe auch

Sample and Split
Partition und Beispiel
Modulliste von A bis Z