Konvertieren in Indikatorwerte

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Konvertiert Kategoriewerte in Spalten in Indikatorwerte

Kategorie: Datentransformation/-bearbeitung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Convert to Indicator Values (In Indikatorwerte konvertieren) in Machine Learning Studio (klassisch) verwenden. Der Zweck dieses Moduls besteht im Konvertieren von Spalten, die kategorische Werte enthalten, in eine Reihe binärer Indikatorspalten, die leichter als Features in einem Machine Learning-Modell verwendet werden können.

Konfigurieren von Convert to Indicator Values

Fügen Sie das Modul Convert to Indicator Values (In Indikatorwerte konvertieren) ihrem Machine Learning-Experiment hinzu, und verbinden Sie es mit dem Dataset, das die Spalten enthält, die Sie konvertieren möchten. Sie finden dieses Modul unter Datentransformationen in der Kategorie Manipulation .
Verwenden Sie die Spaltenauswahl, um mindestens eine nach Kategorien sortierte Spalte auszuwählen.

Um sicherzustellen, dass die ausgewählten Spalten kategorisch sind, verwenden Sie Edit Metadata before Convert to Indicator Values in Ihrem Experiment, um die Zielspalte als kategorisch zu markieren.
Wählen Sie die Option Overwrite categorical columns (Kategoriespalten überschreiben) aus, wenn Sie nur die neuen booleschen Spalten ausgeben möchten.

Standardmäßig ist diese Option deaktiviert, wodurch Sie die Kategoriespalte, die die Quelle ist, zusammen mit den zugehörigen Indikatorspalten anzeigen können.

Tipp

Wenn Sie die Option zum Überschreiben auswählen, wird die Quellspalte nicht gelöscht oder geändert. Stattdessen werden die neuen Spalten generiert und im Ausgabedataset dargestellt, und die Quellspalte bleibt im Arbeitsbereich verfügbar. Wenn Sie die ursprünglichen Daten anzeigen müssen, können Sie jederzeit das Modul Add Columns verwenden, um die Quellspalte wieder hinzuzufügen.
Führen Sie das Experiment aus.

Ergebnisse

Angenommen, Sie verfügen über eine Spalte mit Bewertungen, die angeben, ob ein Server eine hohe, mittlere oder niedrige Ausfallwahrscheinlichkeit auf hat.

Server-ID	Fehlerscore
10301	Niedrig
10302	Medium
10303	High

Wenn Sie In Indikatorwerte konvertieren anwenden, wird die einzelne Spalte mit Bezeichnungen in mehrere Spalten konvertiert, die boolesche Werte enthalten:

Server-ID	Fehlerscore – niedrig	Fehlerscore – mittel	Fehlerscore – hoch
10301	1	0	0
10302	0	1	0
10303	0	0	1

So funktioniert die Konvertierung:

Die Spalte Failure score (Fehlerscore), die das Risiko beschreibt, kann nur drei mögliche Werte (hoch, mittel und niedrig) und keine fehlenden Werte aufweisen. Daher werden genau drei neue Spalten erstellt.
Die neuen Indikatorspalten werden basierend auf den Spaltenüberschriften und Werten der Quellspalte nach diesem Muster benannt: <Quellspalte>- <Datenwert>.
Es sollte eine 1 in genau einer Indikatorspalte und 0 in allen anderen Indikatorspalten geben. Das liegt daran, dass jeder Server nur eine Risikobewertung haben kann.

Sie können nun die drei Indikatorspalten als Features verwenden und deren Korrelation mit anderen Eigenschaften analysieren, die einer anderen Risikostufe zugeordnet sind.

Beispiele

Beispiele für die Verwendung dieses Moduls finden Sie in den folgenden Azure KI-Katalog:

Erkennung von Patientenkrümeldedaten: Patienten werden basierend auf Patienten-ID-Nummern in Gruppen unterteilt. Anschließend werden Indikatorwerte verwendet, um zu kennzeichnen, zu welcher Gruppe der Patient gehört. Später werden die Gruppenindikatoren dann bei der Bewertung von Modellen verwendet.
Direktes Marketing: Wahrscheinlichkeiten werden mit apply Math Operation (Mathematische Operation anwenden) mit einer Konstante verglichen, und die Werte ja/nein, die angeben, ob die Bewertung über oder unter der Konstante lag, werden in neue Indikatorspalten umgedreht.
Erkennung von Netzwerkangriffen: Protokolldaten werden aus Azure Storage geladen. Die Class-Variable (die z. B. beschreibt, ob es sich bei einem Angriff um ein Rootkit oder einen Pufferüberlauf handelt) wird in eine kategorische Spalte konvertiert und dann in mehrere Indikatorwerte erweitert.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Verwendungstipps

Nur Spalten, die als Kategorie markiert sind, können in Indikatorspalten konvertiert werden. Wenn dieser Fehler angezeigt wird, ist eine der ausgewählten Spalten wahrscheinlich nicht kategorisch:

Fehler 0056: Die Spalte mit dem Namen <Spaltenname> ist nicht in einer zulässigen Kategorie vorhanden.

Standardmäßig werden die meisten Zeichenfolgenspalten als Zeichenfolgenfeatures behandelt, sodass Sie sie explizit mithilfe von Metadaten bearbeiten als kategorisch markieren müssen.
Wenn Sie nicht mindestens eine Kategoriespalte auswählen, wird ein Fehler angezeigt.
Die Anzahl von Spalten, die Sie in Indikatorspalten konvertieren können, ist nicht beschränkt. Da jede Spalte mit Werten jedoch mehrere Indikatorspalten ergeben kann, sollten Sie nur wenige Spalten gleichzeitig konvertieren und überprüfen.
Wenn in der Spalte Werte fehlen, wird für die fehlende Kategorie eine separate Indikatorspalte mit dem folgenden Namen erstellt: <Quellspalte>- Missing.
Wenn die Spalte, die Sie in Indikatorwerte konvertieren, Zahlen enthält, muss diese wie jede andere Featurespalte als Kategorie markiert werden. Anschließend werden die Zahlen als diskrete Werte behandelt. Wenn beispielsweise eine numerische Spalte mit Verbrauchswerten in MPG (Miles per Gallon) zwischen 25 und 30 vorhanden ist, wird für jeden diskreten Wert eine neue Indikatorspalte erstellt:

Make Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30

Mit dabei: 0 0 0 0 0 1

Um eine große Anzahl von Indikatorspalten zu vermeiden, empfiehlt es sich, zuerst die Anzahl der Werte in der Spalte zu überprüfen und die Daten entsprechend zu sortieren oder zu quantisieren.

Make	Highway mpg -25	Highway mpg -26	Highway mpg -27	Highway mpg -28	Highway mpg -29	Highway mpg -30
Mit dabei:	0	0	0	0	0	1

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Dataset mit Kategoriespalten

Modulparameter

Name	Range	type	Standard	Beschreibung
Zu konvertierende Kategoriespalten	Any	ColumnSelection		Wählen Sie in Indikatormatrizen zu konvertierende Kategoriespalten aus.
Überschreiben von Kategoriespalten	Any	Boolean	false	Wenn "True" festgelegt ist, werden die ausgewählten Kategoriespalten überschrieben, andernfalls die resultierenden Indikatormatrizen an das Dataset angefügt.

Output

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Dataset mit in Indikatormatrizen konvertierten Kategoriespalten.

Siehe auch

Manipulation
Datentransformation
Modulliste von A bis Z