Aufteilen von Daten mithilfe des Aufteilens von Zeilen

In diesem Artikel wird beschrieben, wie Sie die Option Zeilen teilen im Modul Split Data von Azure Machine Learning Studio (klassisch) verwenden. Diese Option ist besonders nützlich, wenn Sie Datasets, die für Trainings-und Testzwecke verwendet werden, entweder nach dem Zufallsprinzip oder nach bestimmten Kriterien aufteilen müssen.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Die Option Split Rows unterstützt sowohl zufällige als auch stratifilierte Teilungen. Beispielsweise können Sie eine 70-30-Teilung oder eine 10-90-Teilung mit der Zielvariablen angeben, die in beiden Datasets gleichermaßen dargestellt ist.

Allgemeine Informationen zur Daten Partitionierung für Machine Learning-Experimente finden Sie unter Aufteilen von Daten und partitionieren und teilen.

Andere Optionen im Modul Split Data unterstützen verschiedene Methoden zum Aufteilen der Daten:

Aufteilen eines Datasets in zwei Gruppen

  1. Fügen Sie das Modul Split Data Ihrem Experiment in Studio (klassisch) hinzu, und verbinden Sie das DataSet, das Sie aufteilen möchten.

  2. Wählen Sie für Splitting mode (Aufteilungsmodus) die Option Split rows (Zeilen aufteilen) aus.

  3. Fraction of rows in the first output dataset (Anteil der Zeilen im ersten Ausgabedataset). Ermitteln Sie anhand dieser Option, wie viele Zeilen der ersten (linken) Ausgabe zugeordnet werden. Alle weiteren Zeilen werden der zweiten (rechten) Ausgabe zugewiesen.

    Das Verhältnis stellt den Prozentsatz der Zeilen dar, die an das erste Ausgabedataset gesendet werden, sodass Sie eine Dezimalzahl zwischen 0 und 1 eingeben müssen.

    Wenn Sie z. B. 0,75 als Wert eingeben, wird das Dataset im Verhältnis 75:25 aufgeteilt. Dabei werden 75 % der Zeilen an das erste Ausgabedataset und 25 % an das zweite Ausgabedataset gesendet.

  4. Wählen Sie die Option Randomized split (Zufällige Aufteilung), wenn Daten den beiden Gruppen nach dem Zufallsprinzip zugewiesen werden sollen. Dies ist die bevorzugte Option bei der Erstellung von Trainings-und Testdatasets.

  5. Zufälliger Ausgangswert: Geben Sie einen nicht negativen ganzzahligen Wert ein, um die zu verwendende Pseudo Zufalls-Sequenz von-Instanzen zu initialisieren. Dieser standardmäßige Startwert wird in allen Modulen verwendet, die Zufallszahlen generieren.

    Die Angabe eines Startwerts führt dazu, dass die Ergebnisse grundsätzlich reproduzierbar sind. Wenn Sie die Ergebnisse eines Aufteilungsvorgangs wiederholen müssen, muss auch ein Startwert für den Zufallszahlengenerator angegeben werden. Andernfalls wird der zufällige Startwert standardmäßig auf „0“ festgelegt, was bedeutet, dass der ursprüngliche Startwert von der Systemuhr abgerufen wird. Daher kann die Verteilung der Daten bei einer neuen Aufteilung geringfügig abweichen.

  6. Stratifiziertes Teilen: Legen Sie diese Option auf " true " fest, um sicherzustellen, dass die beiden Ausgabe Datasets eine repräsentative Stichprobe der Werte in der Schichten Spalte oder der Spalte "stratifikey" enthalten.

    Bei geschichteten Stichproben werden die Daten unterteilt, sodass jedes Ausgabedataset annähernd den gleichen Prozentsatz der einzelnen Zielwerte aufweist. Beispielsweise können Sie sicherstellen, dass die Trainings-und Testsätze in Bezug auf das Ergebnis oder in Bezug auf eine andere Spalte, z. b. Geschlecht, ungefähr ausgeglichen sind.

  7. Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie ausgewählte ausführen

Beispiele

In den folgenden Beispielen wird veranschaulicht, wie einfache Teilungen mithilfe des Modus Split Rows ausgeführt werden.

In zwei gleiche Teile aufteilen

Fügen Sie das Modul Split Data nach dem Dataset hinzu, ohne weitere Änderungen vorzunehmen. Standardmäßig teilt das Modul das Dataset in zwei gleich große Teile. Für Daten mit einer ungerade Anzahl von Zeilen erhält die zweite Ausgabe den Rest.

In Drittel aufteilen

Angenommen, Sie möchten ein Dataset in zwei Teile aufteilen, wobei ein drittes der zum Training verwendeten Daten und der Rest für Tests oder weitere Teilungen verwendet werden.

Fügen Sie hierzu ein Split Data -Modul hinzu, und legen Sie den Anteil der Zeilen in der ersten Ausgabe auf 0,33 fest. Die zweite Ausgabe enthält die restlichen zwei Drittel.

Um die zweite Ausgabe in identische Teile aufzuteilen, fügen Sie eine weitere Instanz des Moduls Split Data hinzu, und verwenden Sie dieses Mal den Standardwert für eine 50-50-Teilung.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Details zur Implementierung

  • Dieses Modul erfordert, dass das DataSet mindestens zwei Zeilen enthält. Andernfalls wird ein Fehler ausgelöst.

  • Wenn Sie die Option verwenden, in der die gewünschte Anzahl von Zeilen angegeben wird, muss die angegebene Anzahl eine positive ganze Zahl sein, die kleiner gleich der Gesamtzahl der Zeilen im Dataset ist.

  • Alle Prozentwerte müssen im Bereich von 0 und 1 liegen.

  • Wenn Sie eine Zahl oder einen Prozentsatz als Gleit Komma Zahl angeben, die kleiner als 1 ist, und Sie nicht das Prozentzeichen (%) verwenden, wird die Zahl als proportionaler Wert interpretiert.

Zusätzliche Anforderungen für eine stratifilierte Stichprobenentnahme

  • Die Schichten Spalte darf nur nominale oder kategorische Daten enthalten. Wenn die Spalte kontinuierliche numerische Daten enthält, wird eine Fehlermeldung ausgegeben.

  • Eine Spalte mit zu vielen eindeutigen Werten ist kein guter Kandidat für die Stratifizierung. Möglicherweise versuchen Sie, einige Kategorien zu reduzieren oder Werte vorab zu gruppieren.

Weitere Informationen

Sample and Split Partition and Sample