Partition und Beispiel

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erstellt mehrere Partitionen eines Datasets basierend auf einer Stichprobenentnahme

Kategorie: Datentransformation/Beispiel und Aufteilung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Partition and Sample in Machine Learning Studio (klassisch) verwenden, um Stichproben für ein Dataset auszuführen oder Partitionen aus Ihrem Dataset zu erstellen.

Die Stichprobenentnahme ist ein wichtiges Tool beim maschinellen Lernen. Sie ermöglicht es Ihnen, ein Dataset zu verkleinern, gleichzeitig aber dasselbe Verhältnis von Werten beizubehalten. Dieses Modul unterstützt mehrere zusammengehörige Aufgaben, die beim maschinellen Lernen wichtig sind:

Unterteilen Ihrer Daten in mehrere Unterabschnitte derselben Größe.

Sie könnten die Partitionen für Kreuzvalidierung verwenden oder um zufälligen Gruppen Fälle zuzuweisen.
Aufteilen von Daten in Gruppen und anschließendes Arbeiten mit Daten aus einer bestimmten Gruppe.

Nachdem Sie verschiedenen Gruppen Fälle nach dem Zufallsprinzip zugewiesen haben, müssen Sie möglicherweise die Features ändern, die nur einer einzigen Gruppe zugeordnet sind.
Stichprobenentnahme.

Sie können einen Prozentsatz der Daten extrahieren, eine zufällige Stichprobenentnahme anwenden oder eine Spalte auswählen, um sie zum Ausgleichen des Datasets und zur Durchführung einer geschichteten Stichprobenentnahme an dessen Werten zu verwenden.
Erstellen eines kleineren Datasets zum Testen.

Bei einer großen Datenmenge möchten Sie beim Einrichten des Experiments möglicherweise nur die ersten n Zeilen verwenden und dann beim Erstellen Ihres Modells zur Verwendung des vollständigen Datasets wechseln. Sie können die Stichprobenentnahme auch verwenden, um ein kleineres Dataset zum Einsatz in der Entwicklung zu erstellen.

Konfigurieren von Partition und Beispiel

Dieses Modul unterstützt mehrere Methoden zum Unterteilen Ihrer Daten in Partitionen oder für die Stichprobenentnahme. Wählen Sie zuerst die Methode aus, und legen Sie dann zusätzliche Optionen fest, die für die ausgewählte Methode erforderlich sind.

Abrufen der obersten Anzahl von Zeilen

Abrufen der obersten n Zeilen aus einem Dataset

Verwenden Sie diesen Modus, um nur die ersten n Zeilen abzurufen. Diese Option ist hilfreich, wenn Sie ein Experiment an einer kleinen Anzahl von Zeilen testen möchten und die Daten nicht ausgeglichen oder für eine Stichprobenentnahme irgendwie verfügbar sein müssen.

Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Partition und Sample hinzu, und verbinden Sie das Dataset.
Partition or sample mode (Partitions- oder Stichprobenmodus): Legen Sie diese Option auf Head (Anfang) fest.
Anzahl der auszuwählende Zeilen: Geben Sie die Anzahl der zurückzugebende Zeilen ein.

Die Anzahl der angegebenen Zeilen muss eine nicht negative Ganzzahl sein. Wenn die Anzahl der ausgewählten Zeilen größer als die Anzahl der Zeilen im Dataset ist, wird das ganze Dataset zurückgegeben.
Führen Sie das Experiment aus.

Das Modul gibt ein einzelnes Dataset mit nur der angegebenen Anzahl von Zeilen aus. Die Zeilen werden immer aus dem Anfang des Datasets gelesen.

Erstellen einer Stichprobe von Daten

Diese Option unterstützt einfache Zufallsstichproben oder geschichtete Zufallsstichproben. Dies ist hilfreich, wenn Sie ein kleineres repräsentatives Beispieldataset zum Testen erstellen möchten.

Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Partition und Sample hinzu, und verbinden Sie das Dataset.
Partitions- oder Beispielmodus: Legen Sie diese Einstellung auf Sampling fest.
Samplingrate: Geben Sie einen Wert zwischen 0 und 1 ein. Dieser Wert gibt den Prozentsatz von Zeilen aus dem Quelldataset an, der in das Ausgabedataset einbezogen werden soll.

Wenn Sie beispielsweise nur die Hälfte des ursprünglichen Datasets einbeziehen möchten, geben Sie durch Eingabe von 0.5 an, dass die Stichprobenrate 50% betragen soll.

Die Zeilen des Eingabedatasets werden gemischt und – entsprechend der angegebenen Rate – in das Ausgabedataset selektiv eingefügt.
Zufälliger Ausgangswert für die Stichprobenentnahme: Geben Sie optional eine ganze Zahl ein, die als Startwert verwendet werden soll.

Diese Option ist wichtig, wenn die Zeilen immer auf dieselbe Weise unterteilt werden sollen. Der Standardwert ist „0“ und bedeutet, dass ein Ausgangswert anhand der Systemuhr generiert wird. Dies kann bei jeder Ausführung des Experiments zu geringfügig unterschiedlichen Ergebnissen führen.
Geschichtete Aufteilung für die Stichprobenentnahme: Wählen Sie diese Option aus, wenn es wichtig ist, dass die Zeilen im Dataset vor der Stichprobenentnahme gleichmäßig durch eine Schlüsselspalte geteilt werden.

Wählen Sie für Stratification key column for sampling (Schichtungsschlüsselspalte für Stichprobenentnahme) eine einzelne strata column (Schichtspalte) aus. Die Zeilen im Dataset werden dann folgendermaßen unterteilt:
1. Alle Eingabezeilen werden nach den Werten in der angegebenen Schichtspalte gruppiert (geschichtet).
2. Zeilen werden in den einzelnen Gruppen gemischt.
3. Jede Gruppe wird dem Ausgabedataset selektiv hinzugefügt, um das angegebene Verhältnis zu erfüllen.
Weitere Informationen zur geschichteten Stichprobenentnahme finden Sie im Abschnitt Technische Hinweise .
Führen Sie das Experiment aus.

Bei dieser Option gibt das Modul ein einzelnes Dataset mit einer repräsentativen Stichprobenentnahme der Daten aus.

Der verbleibende Teil ohne Stichprobenentnahme des Datasets wird nicht ausgegeben. Sie können jedoch join für die Datasets erstellen, indem Sie das Modul Apply SQL Transformation verwenden, um zu bestimmen, welche Zeilen nicht verwendet wurden.

Aufteilen von Daten in Partitionen

Verwenden Sie diese Option, wenn Sie das Dataset in Teilmengen der Daten unterteilen möchten. Diese Option ist auch hilfreich, wenn Sie eine benutzerdefinierte Anzahl von Folds für Kreuzvalidierung erstellen oder Zeilen in mehrere Gruppen aufteilen möchten.

Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Partition und Sample hinzu, und verbinden Sie das Dataset.
Wählen Sie für Partition or sample mode (Partitions- oder Stichprobenmodus) die Option Assign to Folds (Zu Folds zuweisen) aus.
Use replacement in the partitioning (Ersetzung bei der Partitionierung verwenden): Wählen Sie diese Option aus, wenn die Zeile nach der Stichprobenentnahme wieder in den Pool von Zeilen (für eine mögliche Wiederverwendung) eingefügt werden soll. Dies kann dazu führen, dass dieselbe Zeile möglicherweise mehreren Folds zugewiesen wird.

Wenn Sie keine Ersetzung (die Standardoption) verwenden, wird die Zeile nach der Stichprobenentnahme nicht wieder in den Pool von Zeilen (für eine mögliche Wiederverwendung) eingefügt. Infolgedessen kann jede Zeile nur einem einzigen Fold zugewiesen werden.
Randomized split (Aufteilung in Zufallsreihenfolge): Wählen Sie diese Option aus, wenn Zeilen Folds in Zufallsreihenfolge zugewiesen werden sollen.

Wenn Sie diese Option nicht auswählen, werden Zeilen Folds mit der Roundrobin-Methode zugewiesen.
Zufälliger Ausgangswert: Geben Sie optional eine ganze Zahl ein, die als Startwert verwendet werden soll. Diese Option ist wichtig, wenn die Zeilen immer auf dieselbe Weise unterteilt werden sollen. Andernfalls bedeutet der Standardwert „0“, dass ein zufälliger Startwert verwendet wird.
Angeben der Partitionierungsmethode: Geben Sie mithilfe der folgenden Optionen an, wie Daten auf die einzelnen Partitionen aufgeteilt werden sollen:
- Partition evenly (Gleichmäßig partitionieren): Verwenden Sie diese Option, um in jeder Partition die gleiche Anzahl von Zeilen zu platzieren. Wenn Sie die Anzahl der Ausgabepartitionen angeben möchten, geben Sie im Textfeld Specify number of folds to split evenly into (Anzahl der Folds, in die gleichmäßig aufgeteilt werden soll) eine ganze Zahl ein.
- Partition with customized proportion (Mit angepassten Anteilen partitionieren): Verwenden Sie diese Option, um die Größe jeder Partition als eine durch Trennzeichen getrennte Liste anzugeben.
  
  Wenn Sie beispielsweise drei Partitionen erstellen möchten, bei der die erste Partition 50% der Daten enthält und die verbleibenden zwei Partitionen jeweils 25% der Daten enthalten, klicken Sie auf das Textfeld List of proportions separated by comma (Liste von Anteilen, durch Trennzeichen getrennt), und geben Sie folgende Zahlen ein: .5, .25, .25
  
  Die Summe aller Partitionsgrößen muss genau „1“ ergeben.
  - Wenn Sie Zahlen eingeben, deren Summe kleiner als 1 ist, wird eine zusätzliche Partition zur Aufnahme der verbleibenden Zeilen erstellt. Wenn Sie beispielsweise die Werte „0,2“ und „0,3“ eingeben, wird eine dritte Partition zur Aufnahme der verbleibenden 50 Prozent aller Zeilen erstellt.
  - Wenn Sie Zahlen eingeben, deren Summe größer als 1 ist, wird bei Ausführung des Experiments ein Fehler ausgelöst.
Stratified split (Geschichtete Aufteilung): Wählen Sie diese Option aus, wenn die Zeilen beim Aufteilen geschichtet werden sollen, und wählen Sie dann die strata column (Schichtspalte) aus.

Weitere Informationen zur geschichteten Stichprobenentnahme finden Sie im Abschnitt Technische Hinweise .
Führen Sie das Experiment aus.

Bei dieser Option gibt das Modul mehrere Datasets aus, die anhand der von Ihnen angegebenen Regeln partitioniert wurden.

Verwenden von Daten aus einer vordefinierten Partition

Diese Option wird verwendet, wenn Sie ein Dataset in mehrere Partitionen unterteilt haben und jetzt jede Partition für weitere Analyse oder Verarbeitung laden möchten.

Fügen Sie das Modul Partition and Sample dem Experiment in Studio (klassisch) hinzu.
Verbinden Sie es mit der Ausgabe aus einer vorherigen Instanz von Partition and Sample. Diese Instanz muss die Option Assign to Folds (Zu Folds zuweisen) verwendet haben, um eine Anzahl von Partitionen zu generieren.
Partition or sample mode(Partitions- oder Stichprobenmodus): Wählen Sie Pick Fold (Fold auswählen) aus.
Geben Sie an, aus welchem Fold stichprobenentnahmen werden soll: Wählen Sie eine zu verwendende Partition aus, indem Sie ihren Index eingeben. Partitionsindizes sind 1-basiert. Wenn Sie das Dataset beispielsweise in drei Teile unterteilt haben, hätten die Partitionen die Indizes „1“, „2“ und „3“.

Wenn Sie einen ungültigen Indexwert eingeben, wird ein Entwurfszeitfehler ausgelöst: "Fehler 0018: Dataset enthält ungültige Daten."

Zusätzlich zum Gruppieren des Datasets nach Folds können Sie es in zwei Gruppen aufteilen: einen Zielfold und alles andere. Geben Sie dazu den Index eines einzelnen Folds ein, und wählen Sie die Option Pick complement of the selected fold (Komplement des ausgewählten Folds aussuchen) aus, um alles außer den Daten in den angegebenen Fold abzurufen.
Wenn Sie mit mehreren Partitionen arbeiten, müssen Sie dem Modul Partition and Sample zusätzliche Instanzen hinzufügen, um jede Partition verarbeiten zu können.

Nehmen wir beispielsweise an, dass Patienten zuvor mithilfe des Alters in fünf Aufteilungen partitioniert wurden. Um mit jedem einzelnen Fold arbeiten zu können, benötigen Sie fünf Kopien des Moduls Partition und Sample , und in jedem Modul wählen Sie einen anderen Fold aus.

Tipp

Das Beispielexperiment Split Partition and Sample veranschaulicht diese Technik.
Führen Sie das Experiment aus.

Bei dieser Option gibt das Modul ein einzelnes Dataset mit nur den Zeilen aus, die diesem Fold zugewiesen wurden.

Hinweis

Sie können die Foldbezeichnungen nicht direkt anzeigen, weil sie nur in den Metadaten vorhanden sind.

Beispiele

Beispiele für die Verwendung dieses Moduls finden Sie im Azure KI-Katalog:

Kreuzvalidierung für binäre Klassifizierung: Eine Stichprobenrate von 20 % wird angewendet, um ein kleineres Dataset mit zufälliger Stichprobenentnahme zu erstellen. Das ursprüngliche Erhebungs-Dataset hatte mehr als 30.000 Zeilen. Das Stichproben-Dataset hat etwa 6.500.
Kreuzvalidierung für Regression: Die Daten werden zufällig und gleichmäßig fünf Folds ohne Schichtung zugewiesen, und die Ergebnisse werden für die Kreuzvalidierung verwendet.
Partition und Beispiel teilen: Veranschaulicht mehrere Möglichkeiten zur Verwendung von Partitionierung und Stichproben. Erstens wird die Option Zu Folds zuweisen verwendet , um Zeilen im Dataset einer von drei Gruppen mit gleichmäßiger Größe zu zuweisen. Anschließend werden drei weitere Instanzen von Partition und Sample hinzugefügt, indem der Pick Fold-Modus verwendet wird, um Vorgänge auf Teilmengen der Daten anzuwenden.
- Im ersten Fold (Index von 1) werden Die Zeilen nach dem Zufallsprinzip aufgeteilt.
- Im zweiten Fold (Index von 2) werden die Zeilen nach Bildungseinrichtungen aufgeteilt.
- Im dritten Teil (Index von 3) werden die Zeilen nach Alter aufgeteilt.

Technische Hinweise

Die Stratification-Spalte muss mit diskreten Werten kategorisch sein. Wenn die Spalte noch nicht kategorisch ist und Sie einen Fehler erhalten, verwenden Sie Edit Metadata (Metadaten bearbeiten), um die Spalteneigenschaften zu ändern.
Die von Ihnen angegebenen Strataspalten dürfen keine kontinuierlichen Daten enthalten, d. b. numerische Daten mit Gleitkommawerten in jeder Zelle. Andernfalls kann das Modul die Daten nicht verarbeiten und gibt einen Fehler zurück.

Der Grund dafür ist, dass jede Spalte, die für die Schichtung verwendet wird, einen begrenzten Satz möglicher Werte haben muss. Wenn die angegebene Strataspalte Gleitkommawerte enthält und die Spalte nicht vom Typ categorical ist, enthält sie möglicherweise eine unendliche Anzahl von Werten.
Wenn die Strata-Spalte boolesche Werte enthält und sie als kategorisch interpretiert werden sollen, müssen Sie das Modul Edit Metadata (Metadaten bearbeiten) verwenden, um die Metadatenbezeichnung zu ändern.
Wenn Ihre Strataspalte Zeichenfolgen- oder numerische Daten mit zu vielen eindeutigen Werten enthält, ist die Spalte kein guter Kandidat für geschichtete Stichproben.

Weitere Informationen zur geschichteten Stichprobenentnahme

Geschichtete Stichprobenentnahme stellt sicher, dass Teilmengen der Daten eine repräsentative Stichprobenentnahme der ausgewählten Strataspalte haben. Diese Methode ist hilfreich, wenn Sie beispielsweise sicherstellen möchten, dass die Alterswerte in den Trainingsdaten genau wie in den Testdaten verteilt sind oder umgekehrt. Vielleicht möchten Sie auch eine Schichtung in der Geschlechterspalte einer Studie aus dem Gesundheitswesen vornehmen, um sicherzustellen, dass Männer und Frauen bei der Partitionierung der Daten gleichmäßig verteilt werden. Durch die Schichtung wird sichergestellt, dass das Verhältnis der ausgewählten Werte beibehalten wird.

Sie geben Werte an, nach denen die Daten getrennt werden sollen, indem Sie eine einzelne Spalte auswählen, die als Strataspalte dienen soll.

Für dieses Modul ist es erforderlich, dass die Strataspalte eine kategorische Spalte ist. Wenn Sie eine Spalte von ganzzahligen Werten für die Schichten verwenden möchten, empfiehlt es sich, dieser Spalte einen Kategorietyp zuzuweisen. Sie können dies über das Schema der Daten tun, bevor Sie sie Machine Learning Studio (klassisch) hinzufügen, oder Sie können die Metadaten der Spalte aktualisieren, indem Sie Metadaten bearbeiten verwenden.

Spalten mit kontinuierlichen Daten (das heißt, numerische Daten mit Gleitkommawerten in jeder Zelle) können nicht als Schichtenspalten verwendet werden. Wenn sie einen Fehler erhalten, können Sie die Werte mithilfe von Gruppendaten in Behältern in diskrete Bereiche ein bucketen und dann Metadaten bearbeiten verwenden, um zu gewährleisten, dass die Spalte als kategorisch behandelt wird.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Aufzuteilendes Dataset

Modulparameter

Name	Range	type	Standard	Beschreibung
Partition or sample mode	Liste	Stichprobenmethoden	Stichproben	Wählen Sie den Partitions- oder Stichprobenmodus aus.
Use replacement in the partitioning	Any	Boolean	False	Geben Sie an, ob die Folds disjoint (Standard – kein Ersatz) oder überlappend (TRUE – Ersatz verwenden) sein sollen.
Randomisierte Aufteilung	Any	Boolean	True	Geben Sie an, ob die Teilung zufällig ist.
Random seed (Zufälliger Ausgangswert)	Any	Integer	0	Geben Sie einen Ausgangswert für den Zufallszahlengenerator an.
Specify the partitioner method	Liste	Partitionsmethoden	Partition evenly	Wählen Sie Partition Evenly ( Gleichmäßig partitionieren) aus, um die Partitionierung in Folds gleicher Größe zu erstellen, oder Partition with customized proportions to partition into folds of customized size (Partition mit angepassten Anteilen für die Partitionierung in Folds von angepasster Größe).
Specify number of folds to split evenly into	>=1	Integer	5	Wählen Sie eine Reihe von Partitionen aus, in die aufgeteilt werden soll.
Geschichtete Aufteilung	Liste	Wahr/Falsch-Typ	Falsch	Geben Sie an, ob die Teilung geschichtet ist.
Stratification key column	Any	ColumnSelection		Enthält den Schichtungsschlüssel
Liste der durch Komma getrennten Anteile	Any	String		Durch Kommas getrennte Listenanteile
Stratified split for customized fold assignment	Any	Wahr/Falsch-Typ	Falsch	Geben Sie an, ob die Teilung für angepasste Foldzuweisungen geschichtet ist.
Stratification key column for customized fold assignment	Any	ColumnSelection		Enthält den Schichtungsschlüssel für angepasste Foldzuweisungen
Specify which fold to be sampled from	>=1	Integer	1	Enthält den Index des Folds, für den stichprobenentnahmen werden soll.
Pick complement of the selected fold	Any	Boolean	False	Wählen Sie das Komplement des angegebenen Folds aus.
Rate of sampling	Any	Float	0.01	Wählen Sie eine Stichprobenrate.
Random seed for sampling	Any	Integer	0	Geben Sie einen Ausgangswert für den Zufallszahlengenerator für die Stichprobennahme an.
Stratified split for sampling	Any	TRUE/FALSE	Falsch	Geben Sie an, ob die Teilung für die Stichprobennahme geschichtet wird.
Stratification key column for sampling	Any	ColumnSelection		Enthält den Schichtungsschlüssel für die Stichprobennahme
Number of rows to select	>=0	Integer	10	Wählen Sie eine maximale Anzahl von Datensätzen aus, die an das nächste Modul übergeben werden dürfen.

Ausgaben

Name	Type	Beschreibung
oDataset	Datentabelle	Aus der Aufteilung resultierendes Dataset

Siehe auch

Sample and Split
Aufteilen von Daten
Bearbeiten von Metadaten
Gruppieren von Daten in Containern