Konvertieren in Indikatorwerte

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Konvertiert Kategoriewerte in Spalten in Indikatorwerte

Kategorie: Datentransformation/-bearbeitung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Convert to Indicator Values (In Indikatorwerte konvertieren) in Machine Learning Studio (klassisch) verwenden. Der Zweck dieses Moduls besteht im Konvertieren von Spalten, die kategorische Werte enthalten, in eine Reihe binärer Indikatorspalten, die leichter als Features in einem Machine Learning-Modell verwendet werden können.

Konfigurieren von Convert to Indicator Values

  1. Fügen Sie das Modul Convert to Indicator Values (In Indikatorwerte konvertieren) ihrem Machine Learning-Experiment hinzu, und verbinden Sie es mit dem Dataset, das die Spalten enthält, die Sie konvertieren möchten. Sie finden dieses Modul unter Datentransformationen in der Kategorie Manipulation .

  2. Verwenden Sie die Spaltenauswahl, um mindestens eine nach Kategorien sortierte Spalte auszuwählen.

    Um sicherzustellen, dass die ausgewählten Spalten kategorisch sind, verwenden Sie Edit Metadata before Convert to Indicator Values in Ihrem Experiment, um die Zielspalte als kategorisch zu markieren.

  3. Wählen Sie die Option Overwrite categorical columns (Kategoriespalten überschreiben) aus, wenn Sie nur die neuen booleschen Spalten ausgeben möchten.

    Standardmäßig ist diese Option deaktiviert, wodurch Sie die Kategoriespalte, die die Quelle ist, zusammen mit den zugehörigen Indikatorspalten anzeigen können.

    Tipp

    Wenn Sie die Option zum Überschreiben auswählen, wird die Quellspalte nicht gelöscht oder geändert. Stattdessen werden die neuen Spalten generiert und im Ausgabedataset dargestellt, und die Quellspalte bleibt im Arbeitsbereich verfügbar. Wenn Sie die ursprünglichen Daten anzeigen müssen, können Sie jederzeit das Modul Add Columns verwenden, um die Quellspalte wieder hinzuzufügen.

  4. Führen Sie das Experiment aus.

Ergebnisse

Angenommen, Sie verfügen über eine Spalte mit Bewertungen, die angeben, ob ein Server eine hohe, mittlere oder niedrige Ausfallwahrscheinlichkeit auf hat.

Server-ID Fehlerscore
10301 Niedrig
10302 Medium
10303 High

Wenn Sie In Indikatorwerte konvertieren anwenden, wird die einzelne Spalte mit Bezeichnungen in mehrere Spalten konvertiert, die boolesche Werte enthalten:

Server-ID Fehlerscore – niedrig Fehlerscore – mittel Fehlerscore – hoch
10301 1 0 0
10302 0 1 0
10303 0 0 1

So funktioniert die Konvertierung:

  • Die Spalte Failure score (Fehlerscore), die das Risiko beschreibt, kann nur drei mögliche Werte (hoch, mittel und niedrig) und keine fehlenden Werte aufweisen. Daher werden genau drei neue Spalten erstellt.

  • Die neuen Indikatorspalten werden basierend auf den Spaltenüberschriften und Werten der Quellspalte nach diesem Muster benannt: <Quellspalte>- <Datenwert>.

  • Es sollte eine 1 in genau einer Indikatorspalte und 0 in allen anderen Indikatorspalten geben. Das liegt daran, dass jeder Server nur eine Risikobewertung haben kann.

Sie können nun die drei Indikatorspalten als Features verwenden und deren Korrelation mit anderen Eigenschaften analysieren, die einer anderen Risikostufe zugeordnet sind.

Beispiele

Beispiele für die Verwendung dieses Moduls finden Sie in den folgenden Azure KI-Katalog:

  • Erkennung von Patientenkrümeldedaten: Patienten werden basierend auf Patienten-ID-Nummern in Gruppen unterteilt. Anschließend werden Indikatorwerte verwendet, um zu kennzeichnen, zu welcher Gruppe der Patient gehört. Später werden die Gruppenindikatoren dann bei der Bewertung von Modellen verwendet.

  • Direktes Marketing: Wahrscheinlichkeiten werden mit apply Math Operation (Mathematische Operation anwenden) mit einer Konstante verglichen, und die Werte ja/nein, die angeben, ob die Bewertung über oder unter der Konstante lag, werden in neue Indikatorspalten umgedreht.

  • Erkennung von Netzwerkangriffen: Protokolldaten werden aus Azure Storage geladen. Die Class-Variable (die z. B. beschreibt, ob es sich bei einem Angriff um ein Rootkit oder einen Pufferüberlauf handelt) wird in eine kategorische Spalte konvertiert und dann in mehrere Indikatorwerte erweitert.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Verwendungstipps

  • Nur Spalten, die als Kategorie markiert sind, können in Indikatorspalten konvertiert werden. Wenn dieser Fehler angezeigt wird, ist eine der ausgewählten Spalten wahrscheinlich nicht kategorisch:

    Fehler 0056: Die Spalte mit dem Namen <Spaltenname> ist nicht in einer zulässigen Kategorie vorhanden.

    Standardmäßig werden die meisten Zeichenfolgenspalten als Zeichenfolgenfeatures behandelt, sodass Sie sie explizit mithilfe von Metadaten bearbeiten als kategorisch markieren müssen.

  • Wenn Sie nicht mindestens eine Kategoriespalte auswählen, wird ein Fehler angezeigt.

  • Die Anzahl von Spalten, die Sie in Indikatorspalten konvertieren können, ist nicht beschränkt. Da jede Spalte mit Werten jedoch mehrere Indikatorspalten ergeben kann, sollten Sie nur wenige Spalten gleichzeitig konvertieren und überprüfen.

  • Wenn in der Spalte Werte fehlen, wird für die fehlende Kategorie eine separate Indikatorspalte mit dem folgenden Namen erstellt: <Quellspalte>- Missing.

  • Wenn die Spalte, die Sie in Indikatorwerte konvertieren, Zahlen enthält, muss diese wie jede andere Featurespalte als Kategorie markiert werden. Anschließend werden die Zahlen als diskrete Werte behandelt. Wenn beispielsweise eine numerische Spalte mit Verbrauchswerten in MPG (Miles per Gallon) zwischen 25 und 30 vorhanden ist, wird für jeden diskreten Wert eine neue Indikatorspalte erstellt:

    Make Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30
    Mit dabei: 0 0 0 0 0 1

    Um eine große Anzahl von Indikatorspalten zu vermeiden, empfiehlt es sich, zuerst die Anzahl der Werte in der Spalte zu überprüfen und die Daten entsprechend zu sortieren oder zu quantisieren.

Erwartete Eingaben

Name Type Beschreibung
Dataset Datentabelle Dataset mit Kategoriespalten

Modulparameter

Name Range type Standard Beschreibung
Zu konvertierende Kategoriespalten Any ColumnSelection Wählen Sie in Indikatormatrizen zu konvertierende Kategoriespalten aus.
Überschreiben von Kategoriespalten Any Boolean false Wenn "True" festgelegt ist, werden die ausgewählten Kategoriespalten überschrieben, andernfalls die resultierenden Indikatormatrizen an das Dataset angefügt.

Output

Name Type Beschreibung
Ergebnisdataset Datentabelle Dataset mit in Indikatormatrizen konvertierten Kategoriespalten.

Siehe auch

Manipulation
Datentransformation
Modulliste von A bis Z