Beschneiden von Werten

Erkennt Ausreißer und schneidet deren Werte aus oder ersetzt sie

Kategorie: Daten Transformation/Skalierung und Reduzierung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul " Clip Values " in Azure Machine Learning Studio (klassisch) verwenden, um Datenwerte zu identifizieren und optional zu ersetzen, die einen angegebenen Schwellenwert über oder unterschreiten. Dies ist hilfreich, wenn Sie Ausreißer entfernen oder durch einen Mittelwert, eine Konstante oder einen anderen Ersatzwert ersetzen möchten.

Sie verbinden das Modul mit einem Dataset, das die zu beschneidenden Zahlen enthält, wählen die Spalten für die Bearbeitung aus und legen dann einen Schwellenwert oder Wertebereich sowie eine Ersetzungsmethode fest. Das Modul kann nur entweder die Ergebnisse oder die geänderten Werte an das ursprüngliche Dataset angefügt ausgeben.

Konfigurieren von Clip Values

Ermitteln Sie zunächst die Spalten, die Sie beschneiden möchten, und die zu verwendende Methode. Es wird empfohlen, Beschneidungsmethoden zuerst an einer kleinen Teilmenge der Daten zu testen.

Das Modul wendet die gleichen Kriterien und die Ersetzungsmethode auf alle Spalten an, die Sie in die Auswahl einschließen. Achten Sie daher darauf, Spalten auszuschließen, die Sie nicht ändern möchten.

Wenn Sie auf einige Spalten Beschneidungsmethoden oder andere Kriterien anwenden möchten, müssen Sie für jede Gruppe ähnlicher Spalten eine neue Instanz von Clip Values verwenden.

  1. Fügen Sie Ihrem Experiment das Modul " Clip Values " hinzu, und verbinden Sie es mit dem DataSet, das Sie ändern möchten. Sie finden dieses Modul unter Data Transformation (Datentransformation) in der Kategorie Scale and Reduce (Skalieren und verringern).

  2. Wählen Sie in der Liste der Spalten mithilfe der Spaltenauswahl die Spalten aus, auf die Clip Values angewandt werden soll.

  3. Wählen Sie für Set of thresholds (Satz von Schwellenwerten) in der Dropdownliste eine der folgenden Optionen aus. Diese Optionen legen fest, wie die Ober- und Untergrenze für zulässige Werte bzw. Werte, die beschnitten werden müssen, festgelegt werden.

    • Clippeaks: Wenn Sie Werte durch Spitzenwerte abschneiden, geben Sie nur eine obere Grenze an. Werte, die größer sind als dieser Begrenzungs Wert, werden ersetzt oder entfernt.

    • Clipsubpeaks: Wenn Sie Werte durch untergeordnete Spitzen abschneiden, geben Sie nur eine untere Grenze an. Werte, die kleiner sind als dieser Begrenzungs Wert, werden ersetzt oder entfernt.

    • Clippeer Sandbox subpeaks: Wenn Sie Werte durch Spitzen und untergeordnete Spitzen abschneiden, können Sie sowohl die obere als auch die untere Grenze angeben. Werte, die außerhalb dieses Bereichs liegen, werden ersetzt oder entfernt. Werte, die den Grenzwerten entsprechen, werden nicht geändert.

  4. Abhängig von Ihrer Auswahl im vorherigen Schritt können Sie die folgenden Schwellenwerte festlegen:

    • Unterer Schwellenwert: wird nur angezeigt, wenn Sie clipsubpeaks auswählen
    • Oberer Schwellenwert: wird nur angezeigt, wenn Sie clippeaks auswählen
    • Schwellenwert: wird nur angezeigt, wenn Sie clippeer-Sand subpeaks auswählen.

    Wählen Sie für jeden Schwellenwert Konstante oder Perzentil aus.

  5. Wenn Sie Konstante auswählen, geben Sie den maximalen oder minimalen Wert in das Textfeld ein. Beispiel: Sie wissen, dass der Wert 999 als Platzhalterwert verwendet wurde. Sie können Konstante als oberen Schwellenwert auswählen und 999 in konstantem Wert von Oberer Schwellenwert eingeben.

  6. Wenn Sie Perzentil auswählen, schränken Sie die Spaltenwerte auf einen Perzentilbereich ein.

    Beispiel: Sie möchten nur die Werte im Perzentilbereich von 10–80 behalten und alle anderen ersetzen. Wählen Sie Perzentil aus, und geben Sie dann 10 für den Quantilwert niedrigerer Schwellen Wert ein, und geben Sie 80 als Perzentilwert für Oberer Schwellenwert ein.

    Einige Beispiele zur Verwendung von Perzentilbereichen finden Sie im Abschnitt zu Perzentilen.

  7. Definieren Sie einen Ersatzwert.

    Zahlen, die exakt mit den soeben angegebenen Grenzen übereinstimmen, werden als innerhalb des zulässigen Wertebereichs angesehen und daher nicht ersetzt oder entfernt. Alle Zahlen, die außerhalb des angegebenen Bereichs liegen, werden durch den Ersatzwert ersetzt.

    • Ersatzwert für Spitzen: definiert den Wert, der für alle Spaltenwerte, die größer sind als der angegebene Schwellenwert, ersetzt werden soll.
    • Ersatzwert für untergeordnete Spitzen: definiert den Wert, der als Ersatz für alle Spaltenwerte verwendet werden soll, die kleiner als der angegebene Schwellenwert sind.
    • Wenn Sie die Option ClipPeaksAndSubpeaks verwenden, können Sie separate Ersatzwerte für die oberen und unteren abgeschnittenen Werte angeben.

    Die folgenden Ersatzwerte werden unterstützt:

    • Threshold: ersetzt abgeschnittene Werte durch den angegebenen Schwellenwert.

    • Mean: ersetzt abgeschnittene Werte durch den Mittelwert der Spaltenwerte. Der Mittelwert wird berechnet, bevor Werte abgeschnitten werden.

    • Median: ersetzt abgeschnittene Werte durch den Median der Spaltenwerte. Der Median wird berechnet, bevor Werte abgeschnitten werden.

    • Fehlt. Ersetzt beschnittene Werte durch einen fehlenden (leeren) Wert.

  8. Indikator Spalten hinzufügen: Wählen Sie diese Option aus, wenn Sie eine neue Spalte generieren möchten, die Aufschluss darüber gibt, ob der angegebene Clippingvorgang auf die Daten in dieser Zeile angewendet wurde. Diese Option ist besonders nützlich, wenn Sie einen neuen Satz von Clipping-und Ersetzungs Werten testen.

  9. Flag überschreiben: Geben Sie an, wie die neuen Werte generiert werden sollen. Standardmäßig erstellt Clip Values eine neue Spalte mit den am gewünschten Schwellenwert abgeschnittenen Spitzenwerten. Neue Werte überschreiben die ursprüngliche Spalte.

    Deaktivieren Sie diese Option, um die ursprüngliche Spalte beizubehalten und eine neue Spalte mit den beschnittenen Werten hinzuzufügen.

  10. Führen Sie das Experiment aus.

    Klicken Sie mit der rechten Maustaste auf die Ausgabe des Moduls Clip Values, und wählen Sie Visualisieren aus, um die Werte zu überprüfen und sicherzustellen, dass der Beschneidungsvorgang Ihren Erwartungen entspricht.

Beispiele

Informationen zur Verwendung dieses Moduls in Machine Learning-Experimenten finden Sie in den Azure AI Gallery:

  • Ausreißervon Gesamtstruktur Bränden: in diesem Beispiel aus der EDX-couse in Data Science werden clippingmethoden mithilfe des Beispiel Datasets Gesamtstruktur ausgelöst veranschaulicht.

Clipping mithilfe von Perzentilen

Um zu verstehen, wie das Beschneiden nach Perzentilen funktioniert, stellen Sie sich ein Dataset mit 10 Zeilen vor, die jeweils eine Instanz der Werte 1 bis 10 aufweisen.

  • Wenn Sie ein Perzentil als oberen Schwellenwert verwenden, müssen bei dem Wert für das 90. Perzentil 90 % aller Werte im Dataset kleiner als dieser Wert sein.

  • Wenn Sie ein Perzentil als unteren Schwellenwert verwenden, müssen bei dem Wert für das 10. Perzentil 10 % aller Werte im Dataset kleiner als dieser Wert sein.

  1. Wählen Sie für Set of thresholds die Option ClipPeaksAndSubPeaks aus.

  2. Wählen Sie für Upper threshold die Option Percentile aus, und geben Sie für Percentile number den Wert 90 ein.

  3. Wählen Sie für Upper substitute value die Option Missing Value aus.

  4. Wählen Sie für Lower threshold die Option Percentile aus, und geben Sie für Percentile number den Wert 10 ein.

  5. Wählen Sie für Lower substitute value die Option Missing Value aus.

  6. Deaktivieren Sie die Option Overwrite flag, und wählen Sie die Option Add indicator column aus.

Verwenden Sie jetzt beim selben Experiment 60 als oberen Quantilschwellenwert und 30 als unteren Quantilschwellenwert, und verwenden Sie den Schwellenwert als Ersatzwert. In der folgenden Tabelle werden die beiden Ergebnisse verglichen:

  1. Ersetzen durch "Missing Value", oberer Schwellenwert = 90, unterer Schwellenwert = 10

  2. Ersetzen Sie durch Schwellenwert, oberes Quantil = 60, unteres Quantil = 30

Ursprüngliche Daten Ersetzen durch fehlend Ersetzen durch Schwellenwert
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Technische Hinweise

  • Sie können Clip-Werte nur für Spalten verwenden, die Zahlen oder Datums-/Uhrzeitwerte enthalten.

  • Wenn Sie Spalten einschließen, die Text oder Kategoriedaten enthalten, werden die Spalten übersprungen.

  • Fehlende Werte werden ignoriert, wenn der Mittelwert oder Median für eine Spalte berechnet wird.

  • Clip Values unterstützt keine Ordinaldaten.

  • Fehlende Werte werden nicht geändert, wenn sie an das Ausgabedataset weitergegeben werden. Die Spalte für abgeschnittene Werte enthält immer FALSE für fehlende Werte.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard BESCHREIBUNG
Indikatorspalten hinzufügen TRUE/FALSE Boolean FALSE Gibt an, ob ein Indikator zum Abschneiden eines Werts hinzugefügt werden soll.
Konstanter Wert für unteren Schwellenwert any Float -1 Der Wert, unter dem die unter Spitzen abgeschnitten werden.
Konstanten Wert für oberen Schwellenwert any Float 1 Der Wert, oberhalb dessen Spitzen abgeschnitten werden.
Konstanter Wert von unterem Schwellenwert any Float -1 Der Wert, unter dem die unter Spitzen abgeschnitten werden.
Konstanter Wert von oberem Schwellenwert >=1 Float 1 Der Wert, oberhalb dessen die Spitzen abgeschnitten werden.
Liste der Spalten ColumnSelection Liste der zu Clip enden Spalten
Unterer Ersatzwert Schwellenwert

Mittelwert

Median

Missing
Substitutevalues Schwellenwert Der zum Abschneiden von unter Spitzen verwendete Wert.
Unterer Schwellenwert Konstante

Perzentil
Schwellenwert Modus Konstante Der Wert, unter dem die unter Spitzen abgeschnitten werden.
Überschreibkennzeichen TRUE/FALSE Boolean TRUE Gibt an, ob die Spalte (n) der ausgeschnittenen Datenspalte (n) Eingabedaten Spalten überschreiben muss
Perzentilzahl für unteren Schwellenwert [1; 99] Integer 1 Perzentilzahl, unter der die unter Spitzen abgeschnitten werden
Perzentilzahl für oberen Schwellenwert [1; 99] Integer 99 Perzentilzahl, oberhalb derer die Spitzen abgeschnitten werden
Perzentilzahl von unterem Schwellenwert [1; 99] Integer 1 Perzentilzahl, unter der die unter Spitzen abgeschnitten werden
Perzentilzahl von oberem Schwellenwert [1; 99] Integer 99 Perzentilzahl, oberhalb derer die Spitzen abgeschnitten werden
Satz von Schwellenwerten Clippeaks

Clipsubpeaks

ClipPeaksAndSubPeaks
Schwellenwert festgelegt Clippeaks Gibt den Typ des zu verwendenden Schwellenwerts an
Ersatzwert für Spitzen Schwellenwert

Mittelwert

Median

Missing
Substitutevalues Schwellenwert Der während clippingspitzen verwendete Wert.
Ersatzwert für Subpeaks Schwellenwert

Mittelwert

Median

Missing
Substitutevalues Schwellenwert Der Wert, der beim Abschneiden von unter Spitzen verwendet wird.
Schwellenwert Konstante

Perzentil
Schwellenwert Modus Konstante Wert oberhalb und unterhalb der Spitzen im Ausschneide Modus
Oberer Ersatzwert Schwellenwert

Mittelwert

Median

Missing
Schwellenwert Schwellenwert Der für clippingspitzen verwendete Wert.
Oberer Schwellenwert Konstante

Perzentil
Schwellenwert Modus Konstante Der Wert, oberhalb dessen die Spitzen abgeschnitten werden.

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Dataset mit abgeschnittenen Spalten

Ausnahmen

Ausnahme Beschreibung
Fehler 0011 Eine Ausnahme tritt auf, wenn das übergebene Spaltensatzargument nicht für eine der Datasetspalten gilt.
Fehler 0017 Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Skalieren und reduzieren
Modulliste von A bis Z