Beschneiden von Werten

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erkennt Ausreißer und schneidet deren Werte aus oder ersetzt sie

Kategorie: Datentransformation/Skalierung und Reduzierung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Clip Values in Machine Learning Studio (klassisch) verwenden, um Datenwerte zu identifizieren und optional zu ersetzen, die über oder unter einem angegebenen Schwellenwert liegen. Dies ist nützlich, wenn Sie Ausreißer entfernen oder durch einen Mittelwert, eine Konstante oder einen anderen Ersatzwert ersetzen möchten.

Sie verbinden das Modul mit einem Dataset, das die zu beschneidenden Zahlen enthält, wählen die Spalten für die Bearbeitung aus und legen dann einen Schwellenwert oder Wertebereich sowie eine Ersetzungsmethode fest. Das Modul kann nur entweder die Ergebnisse oder die geänderten Werte an das ursprüngliche Dataset angefügt ausgeben.

Konfigurieren von Clip Values

Ermitteln Sie zunächst die Spalten, die Sie beschneiden möchten, und die zu verwendende Methode. Es wird empfohlen, Beschneidungsmethoden zuerst an einer kleinen Teilmenge der Daten zu testen.

Das Modul wendet die gleichen Kriterien und die Ersetzungsmethode auf alle Spalten an, die Sie in die Auswahl einschließen. Achten Sie daher darauf, Spalten auszuschließen, die Sie nicht ändern möchten.

Wenn Sie auf einige Spalten Beschneidungsmethoden oder andere Kriterien anwenden möchten, müssen Sie für jede Gruppe ähnlicher Spalten eine neue Instanz von Clip Values verwenden.

  1. Fügen Sie ihrem Experiment das Modul Clip Values hinzu, und verbinden Sie es mit dem Dataset, das Sie ändern möchten. Sie finden dieses Modul unter Data Transformation (Datentransformation) in der Kategorie Scale and Reduce (Skalieren und verringern).

  2. Wählen Sie in der Liste der Spalten mithilfe der Spaltenauswahl die Spalten aus, auf die Clip Values angewandt werden soll.

  3. Wählen Sie für Set of thresholds (Satz von Schwellenwerten) in der Dropdownliste eine der folgenden Optionen aus. Diese Optionen legen fest, wie die Ober- und Untergrenze für zulässige Werte bzw. Werte, die beschnitten werden müssen, festgelegt werden.

    • ClipPeaks: Wenn Sie Werte anhand von Spitzenwerten abschneiden, geben Sie nur einen oberen Grenzwert ein. Werte, die größer als dieser Begrenzungswert sind, werden ersetzt oder entfernt.

    • ClipSubpeaks: Wenn Sie Werte nach Unterspitzen beschneiden, geben Sie nur eine untere Grenze an. Werte, die kleiner als dieser Begrenzungswert sind, werden ersetzt oder entfernt.

    • ClipPeaksAndSubpeaks: Wenn Sie Werte nach Spitzen und Unterspitzen beschneiden, können Sie sowohl die obere als auch die untere Grenze angeben. Werte, die sich außerhalb dieses Bereichs befinden, werden ersetzt oder entfernt. Werte, die den Grenzwerten entsprechen, werden nicht geändert.

  4. Abhängig von Ihrer Auswahl im vorherigen Schritt können Sie die folgenden Schwellenwerte festlegen:

    • Unterer Schwellenwert: wird nur angezeigt, wenn Sie ClipSubPeaks auswählen.
    • Oberer Schwellenwert: wird nur angezeigt, wenn Sie ClipPeaks auswählen.
    • Schwellenwert: wird nur angezeigt, wenn Sie ClipPeaksAndSubPeaks auswählen.

    Wählen Sie für jeden Schwellenwert Konstante oder Perzentil aus.

  5. Wenn Sie Konstante auswählen, geben Sie den maximalen oder minimalen Wert in das Textfeld ein. Beispiel: Sie wissen, dass der Wert 999 als Platzhalterwert verwendet wurde. Sie können Konstant als oberen Schwellenwert auswählen und unter Konstanter Wert des oberen Schwellenwerts den Wert 999 eingeben.

  6. Wenn Sie Perzentil auswählen, schränken Sie die Spaltenwerte auf einen Perzentilbereich ein.

    Beispiel: Sie möchten nur die Werte im Perzentilbereich von 10–80 behalten und alle anderen ersetzen. Wählen Sie Perzentil aus, und geben Sie dann 10 als Perzentilwert des unteren Schwellenwerts und 80 als Perzentilwert des oberen Schwellenwerts ein.

    Einige Beispiele zur Verwendung von Perzentilbereichen finden Sie im Abschnitt zu Perzentilen.

  7. Definieren Sie einen Ersatzwert.

    Zahlen, die genau den von Ihnen angegebenen Grenzen entsprechen, werden als innerhalb des zulässigen Wertebereichs betrachtet und daher nicht ersetzt oder entfernt. Alle Zahlen, die außerhalb des angegebenen Bereichs liegen, werden durch den Ersatzwert ersetzt.

    • Ersatzwert für Spitzen: definiert den Ersatzwert für alle Spaltenwerte, die über dem angegebenen Schwellenwert liegen.
    • Ersatzwert für Unterspitzen: definiert den Ersatzwert für alle Spaltenwerte, die unter dem angegebenen Schwellenwert liegen.
    • Wenn Sie die Option ClipPeaksAndSubpeaks verwenden, können Sie separate Ersatzwerte für die oberen und unteren abgeschnittenen Werte angeben.

    Die folgenden Ersatzwerte werden unterstützt:

    • Schwellenwert: ersetzt abgeschnittene Werte durch den angegebenen Schwellenwert.

    • Mittelwert: ersetzt abgeschnittene Werte durch den Mittelwert der Spaltenwerte. Der Mittelwert wird berechnet, bevor Werte abgeschnitten werden.

    • Median: ersetzt abgeschnittene Werte durch den Median der Spaltenwerte. Der Median wird berechnet, bevor Werte abgeschnitten werden.

    • Fehlend: Ersetzt beschnittene Werte durch einen fehlenden (leeren) Wert.

  8. Indikatorspalten hinzufügen: Wählen Sie diese Option aus, wenn Sie eine neue Spalte generieren möchten, die Aufschluss darüber gibt, ob der angegebene Abschneidungsvorgang auf die Daten in dieser Zeile angewandt wurde. Diese Option ist besonders praktisch, wenn Sie einen neuen Satz von Ausschneide- und Ersetzungswerten testen.

  9. Flag für Überschreiben: Geben Sie an, wie die neuen Werte generiert werden sollen. Standardmäßig erstellt Clip Values eine neue Spalte mit den am gewünschten Schwellenwert abgeschnittenen Spitzenwerten. Neue Werte überschreiben die ursprüngliche Spalte.

    Deaktivieren Sie diese Option, um die ursprüngliche Spalte beizubehalten und eine neue Spalte mit den beschnittenen Werten hinzuzufügen.

  10. Führen Sie das Experiment aus.

    Klicken Sie mit der rechten Maustaste auf die Ausgabe des Moduls Clip Values, und wählen Sie Visualisieren aus, um die Werte zu überprüfen und sicherzustellen, dass der Beschneidungsvorgang Ihren Erwartungen entspricht.

Beispiele

Informationen zur Verwendung dieses Moduls in Machine Learning-Experimenten finden Sie im Azure KI-Katalog:

Beschneiden mit Perzentilen

Um zu verstehen, wie das Beschneiden nach Perzentilen funktioniert, stellen Sie sich ein Dataset mit 10 Zeilen vor, die jeweils eine Instanz der Werte 1 bis 10 aufweisen.

  • Wenn Sie ein Perzentil als oberen Schwellenwert verwenden, müssen bei dem Wert für das 90. Perzentil 90 % aller Werte im Dataset kleiner als dieser Wert sein.

  • Wenn Sie ein Perzentil als unteren Schwellenwert verwenden, müssen bei dem Wert für das 10. Perzentil 10 % aller Werte im Dataset kleiner als dieser Wert sein.

  1. Wählen Sie für Set of thresholds die Option ClipPeaksAndSubPeaks aus.

  2. Wählen Sie für Upper threshold die Option Percentile aus, und geben Sie für Percentile number den Wert 90 ein.

  3. Wählen Sie für Upper substitute value die Option Missing Value aus.

  4. Wählen Sie für Lower threshold die Option Percentile aus, und geben Sie für Percentile number den Wert 10 ein.

  5. Wählen Sie für Lower substitute value die Option Missing Value aus.

  6. Deaktivieren Sie die Option Overwrite flag, und wählen Sie die Option Add indicator column aus.

Verwenden Sie jetzt beim selben Experiment 60 als oberen Quantilschwellenwert und 30 als unteren Quantilschwellenwert, und verwenden Sie den Schwellenwert als Ersatzwert. In der folgenden Tabelle werden die beiden Ergebnisse verglichen:

  1. Ersetzen durch "Missing Value", oberer Schwellenwert = 90, unterer Schwellenwert = 10

  2. Ersetzen Sie durch Schwellenwert, oberes Quantil = 60, unteres Quantil = 30

Ursprüngliche Daten Ersetzen durch fehlend Ersetzen durch Schwellenwert
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Technische Hinweise

  • Sie können Clip Values nur für Spalten verwenden, die Zahlen oder Datums-/Uhrzeitwerte enthalten.

  • Wenn Sie Spalten einschließen, die Text oder Kategoriedaten enthalten, werden die Spalten übersprungen.

  • Fehlende Werte werden ignoriert, wenn der Mittelwert oder Median für eine Spalte berechnet wird.

  • Clip Values unterstützt keine Ordinaldaten.

  • Fehlende Werte werden nicht geändert, wenn sie an das Ausgabedataset weitergegeben werden. Die Spalte für abgeschnittene Werte enthält immer FALSE für fehlende Werte.

Erwartete Eingaben

Name Type Beschreibung
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard Beschreibung
Indikatorspalten hinzufügen TRUE/FALSE Boolean FALSE Gibt an, ob ein Indikator zum Ausschneiden eines Werts hinzugefügt werden soll
Konstanter Wert für unteren Schwellenwert any Float -1 Wert, unter dem die Unterpeaks abgeschnitten werden
Konstanten Wert für oberen Schwellenwert any Float 1 Wert, über dem die Spitzen abgeschnitten werden
Konstanter Wert von unterem Schwellenwert any Float -1 Wert, unter dem die Unterpeaks abgeschnitten werden
Konstanter Wert von oberem Schwellenwert >=1 Float 1 Wert, über dem die Spitzen abgeschnitten werden
Liste der Spalten ColumnSelection Liste der zuschneidenden Spalten
Unterer Ersatzwert Schwellenwert

Mittelwert

Median

Missing
SubstituteValues Schwellenwert Der zum Ausschneiden von Unterpeaks verwendete Wert.
Unterer Schwellenwert Konstant

Perzentil
Schwellenwertmodus Konstant Wert, unter dem die Unterpeaks abgeschnitten werden
Überschreibkennzeichen TRUE/FALSE Boolean true Gibt an, ob abgeschnittene Datenspalten Eingabedatenspalten überschreiben müssen.
Perzentilzahl für unteren Schwellenwert [1;99] Integer 1 Percentile number below which the subpeaks will be clipd
Perzentilzahl für oberen Schwellenwert [1;99] Integer 99 Percentile number above which the peaks will be clipd (Percentile number, über der die Spitzen abgeschnitten werden)
Perzentilzahl von unterem Schwellenwert [1;99] Integer 1 Percentile number below which the subpeaks are clipd
Perzentilzahl von oberem Schwellenwert [1;99] Integer 99 Percentile number above which the peaks are clipd (Percentile number, über der die Spitzen abgeschnitten werden)
Satz von Schwellenwerten ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Schwellenwert festgelegt ClipPeaks Gibt den typ des zu verwendenden Schwellenwerts an.
Ersatzwert für Spitzen Schwellenwert

Mittelwert

Median

Missing
SubstituteValues Schwellenwert Der wert, der während der Clippingspitzen verwendet wird.
Ersatzwert für Subpeaks Schwellenwert

Mittelwert

Median

Missing
SubstituteValues Schwellenwert Der wert, der während der Clipping-Unterpeaks verwendet wird.
Schwellenwert Konstant

Perzentil
Schwellenwertmodus Konstant Wert oberhalb und unterhalb derer die Spitzen im Modus abgeschnitten werden
Oberer Ersatzwert Schwellenwert

Mittelwert

Median

Missing
Schwellenwert Schwellenwert Der wert, der zum Ausschneiden von Spitzen verwendet wird.
Oberer Schwellenwert Konstant

Perzentil
Schwellenwertmodus Konstant Wert, über dem die Spitzen abgeschnitten werden

Ausgaben

Name Type Beschreibung
Ergebnisdataset Datentabelle Dataset mit abgeschnittenen Spalten

Ausnahmen

Ausnahme Beschreibung
Fehler 0011 Eine Ausnahme tritt auf, wenn das übergebene Spaltensatzargument nicht für eine der Datasetspalten gilt.
Fehler 0017 Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Scale and Reduce
Modulliste von A bis Z