Featureauswahlmodule

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

In diesem Artikel werden die Module in Machine Learning Studio (klassisch) beschrieben, die Sie für die Funktionsauswahl verwenden können.

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Die Funktionsauswahl ist ein wichtiges Tool beim maschinellen Lernen. Machine Learning Studio (klassisch) bietet mehrere Methoden für die Funktionsauswahl. Wählen Sie eine Featureauswahlmethode basierend auf dem Typ ihrer Daten und den Anforderungen der angewendeten statistischen Technik aus.

In diesem Artikel wird Folgendes behandelt:

Was ist die Featureauswahl?
Funktionsauswahlmodule in Machine Learning
Verwenden der Funktionsauswahl
Algorithmen, die die Funktionsauswahl enthalten

Jedes Featureauswahlmodul in Machine Learning Studio (klassisch) verwendet ein Dataset als Eingabe. Anschließend wendet das Modul bekannte statistische Methoden auf die Datenspalten an, die als Eingabe bereitgestellt werden. Die Ausgabe ist ein Satz von Metriken, mit denen Sie die Spalten identifizieren können, die den besten Informationswert aufweisen.

Informationen zur Funktionsauswahl

In Machine Learning und Statistiken ist die Funktionsauswahl der Prozess, bei dem eine Teilmenge relevanter, nützlicher Features ausgewählt wird, die beim Erstellen eines Analysemodells verwendet werden sollen. Die Featureauswahl hilft dabei, das Feld der Daten auf die nützlichsten Eingaben einzugrenzen. Die Eingrenzung des Datenfelds trägt dazu bei, Rauschen zu reduzieren und die Trainingsleistung zu verbessern.

Häufig werden Features aus Rohdaten durch einen Prozess der Featureentwicklung erstellt. Beispielsweise ist ein Zeitstempel an sich möglicherweise nicht nützlich für die Modellierung, bis die Informationen in Einheiten von Tagen, Monaten oder Kategorien transformiert werden, die für das Problem relevant sind, z. B. Feiertag im Vergleich zum Arbeitstag.

Neue Benutzer von Machine Learning könnten versucht sein, alle verfügbaren Daten einzubeziehen. Sie erwarten möglicherweise, dass der Algorithmus etwas Interessantes findet, indem mehr Daten verwendet werden. Die Funktionsauswahl kann jedoch in der Regel Ihr Modell verbessern und häufige Probleme verhindern:

Die Daten enthalten redundante oder irrelevante Features, die nicht mehr Informationen als die derzeit ausgewählten Features bereitstellen.
Die Daten enthalten irrelevante Features, die in keinem Kontext nützliche Informationen bereitstellen. Das Einschließen irrelevanter Felder erhöht nicht nur die Zeit, die zum Trainieren der Daten erforderlich ist, sondern kann auch zu schlechten Ergebnissen führen.
Bei einigen Algorithmen kann das Verwenden doppelter Informationen in den Trainingsdaten zu einem Sogenannten Multikollinearität führen. In Multikollinearität kann das Vorhandensein von zwei stark korrelierten Variablen dazu führen, dass die Berechnungen für andere Variablen viel weniger genau werden.

Tipp

Einige Machine Learning-Algorithmen in Machine Learning Studio (klassisch) verwenden auch die Funktionsauswahl oder die Verringerung der Dimensionalität als Teil des Trainingsprozesses. Wenn Sie diese Lernmodule verwenden, können Sie die Merkmalsauswahl überspringen und die Auswahl der besten Eingaben dem Algorithmus überlassen.

Verwenden der Funktionsauswahl in einem Experiment

Die Funktionsauswahl erfolgt in der Regel, wenn Sie Daten untersuchen und ein neues Modell entwickeln. Beachten Sie diese Tipps, wenn Sie die Featureauswahl verwenden:

Fügen Sie beim Testen Ihrem Experiment eine Funktionsauswahl hinzu, um Bewertungen zu generieren, die Ihre Entscheidung über die zu verwendenden Spalten angeben.
Entfernen Sie die Funktionsauswahl aus dem Experiment, wenn Sie ein Modell operationalisieren.
Führen Sie die Funktionsauswahl in regelmäßigen Abständen aus, um sicherzustellen, dass sich die Daten und die besten Features nicht geändert haben.

Die Featureauswahl unterscheidet sich von der Featureentwicklung, die sich auf das Erstellen neuer Features aus vorhandenen Daten konzentriert.

Ressourcen

Eine Erläuterung der verschiedenen Möglichkeiten, Features zu entwickeln oder die besten Features im Rahmen des Data Science-Prozesses auszuwählen, finden Sie unter Featureentwicklung in Data Science.
Eine exemplarische Vorgehensweise zur Funktionsauswahl im Data Science-Prozess finden Sie unter Filtern von Features aus Ihren Daten – Featureauswahl.

Featureauswahlmethoden in Machine Learning Studio (klassisch)

Die folgenden Module zur Funktionsauswahl werden in Machine Learning Studio (klassisch) bereitgestellt.

Filter Based Feature Selection

Wenn Sie das Modul Filter Based Feature Selection (Filterbasierte Featureauswahl ) verwenden, können Sie zwischen bekannten Methoden zur Featureauswahl wählen. Das Modul gibt sowohl die Statistiken zur Funktionsauswahl als auch das gefilterte Dataset aus.

Welche Filterauswahlmethode Sie auswählen, hängt zum Teil von Ihren Eingabedaten ab.

Methode	Unterstützte Merkmaleingaben	Unterstützte Bezeichnungen
Pearsonsche Korrelation	Nur numerische und logische Spalten	Eine einzelne numerische oder logische Spalte
Transinformationsbewertung	Alle Datentypen	Eine einzelne Spalte eines beliebigen Datentyps
Kendallscher Korrelationskoeffizient	Nur numerische und logische Spalten	Eine einzelne numerische oder logische Spalte Spalten sollten Werte enthalten, die sortiert werden können.
Spearmanscher Korrelationskoeffizient	Nur numerische und logische Spalten	Eine einzelne numerische oder logische Spalte
Chi-Quadrat-Statistik	Alle Datentypen	Eine einzelne Spalte eines beliebigen Datentyps
Fisher-Bewertung	Nur numerische und logische Spalten	Eine einzelne numerische oder logische Spalte Zeichenfolgenspalten wird eine Bewertung von 0 zugewiesen.
Anzahlbasierte Merkmalsauswahl	Alle Datentypen	Eine Bezeichnungsspalte ist nicht erforderlich.

Fisher Linear Discriminant Analysis

Die lineare diskriminante Analyse ist eine überwachte Lerntechnik, mit der Sie numerische Variablen in Verbindung mit einem einzelnen kategorischen Ziel klassifizieren können. Die Methode eignet sich für die Merkmalsauswahl, da sie die Kombination von Merkmalen oder Parametern identifiziert, die die Gruppen am besten trennt.

Sie können das Fisher Linear Discriminant Analysis-Modul verwenden, um eine Reihe von Bewertungen für die Überprüfung zu generieren, oder Sie können das Ersatzdataset verwenden, das vom Modul für das Training generiert wird.

Permutation Feature Importance (PFI)

Verwenden Sie das Permutation Feature Importance-Modul , um die Auswirkungen beliebiger Features auf Ihr Dataset zu simulieren. Das Modul berechnet Leistungsbewertungen für ein Modell basierend auf dem zufälligen Mischen von Featurewerten.

Die vom Modul zurückgegebenen Bewertungen stellen die potenzielle Änderung der Genauigkeit eines trainierten Modells dar, wenn sich Werte ändern. Sie können die Bewertungen verwenden, um die Auswirkungen einzelner Variablen auf das Modell zu bestimmen.

Machine Learning-Algorithmen, die die Funktionsauswahl enthalten

Einige Machine Learning-Algorithmen in Machine Learning Studio (klassisch) optimieren die Funktionsauswahl während des Trainings. Sie können auch Parameter bereitstellen, die bei der Funktionsauswahl hilfreich sind. Wenn Sie eine Methode verwenden, die über eine eigene Heuristik für die Auswahl von Features verfügt, ist es häufig besser, sich auf diese Heuristik zu verlassen, anstatt Features vorab auszuwählen.

Diese Algorithmen und Featureauswahlmethoden werden intern verwendet:

Boosted Decision Tree-Modelle für Klassifizierung und Regression

In diesen Modulen wird intern eine Funktionszusammenfassung erstellt. Features mit einer Gewichtung von 0 werden von keinen Strukturteilungen verwendet. Wenn Sie das am besten trainierte Modell visualisieren, können Sie sich die einzelnen Strukturen anzeigen lassen. Wenn ein Feature nie in einer Struktur verwendet wird, ist das Feature wahrscheinlich ein Kandidat für die Entfernung. Um die Auswahl zu optimieren, ist es auch eine gute Idee, Parameter-Sweeping zu verwenden.
Logistische Regressionsmodelle und lineare Modelle

Die Module für multiklassen- und binäre logistische Regression unterstützen die L1- und L2-Regularisierung. Regularisierung ist eine Möglichkeit zum Hinzufügen von Einschränkungen während des Trainings, um einen Aspekt des gelernten Modells manuell anzugeben. Die Regularisierung wird in der Regel verwendet, um eine Überanpassung zu vermeiden. Machine Learning Studio (klassisch) unterstützt die Regularisierung für die L1- oder L2-Norm des Gewichtungsvektors in linearen Klassifizierungsalgorithmen:
- Die L1-Regularisierung ist nützlich, wenn das Ziel ist, ein Modell zu haben, das so wenig wie möglich ist.
- L2-Regularisierung verhindert, dass jeder einzelnen Koordinate im Gewichtungsvektor zu viel Bedeutung zugewiesen wird. Dies ist nützlich, wenn das Ziel ein Modell mit kleinen Gesamtgewichtungen ist.
- L1-regularisierte logistische Regression ist aggressiver bei der Zuweisung einer Gewichtung von 0 zu Features. Dies ist nützlich, um Features zu identifizieren, die entfernt werden können.

Technische Hinweise

Alle Funktionsauswahlmodule und analytischen Methoden, die numerische und logische Spalten unterstützen, unterstützen auch Datums-/Uhrzeit- und Zeitspannespalten. Diese Spalten werden als einfache numerische Spalten behandelt, in denen jeder Wert der Anzahl von Ticks entspricht.

Die folgenden Module befinden sich nicht in der Kategorie Funktionsauswahl , aber Sie können sie für verwandte Aufgaben verwenden. Die Module können Ihnen helfen, die Dimensionalität Ihrer Daten zu reduzieren oder Korrelationen zu finden:

Hauptkomponentenanalyse (Principal Component Analysis)

Wenn Sie über ein Dataset mit vielen Spalten verfügen, verwenden Sie das Modul Prinzipalkomponentenanalyse, um die Spalten zu erkennen, die die meisten Informationen zu den ursprünglichen Daten enthalten.

Dieses Modul befindet sich in der Kategorie Datentransformation unter Skalierung und Reduzierung.

Lernen mit Zählungen

Die zählbasierte Featurisierung ist eine neue Technik, mit der Sie nützliche Features mithilfe großer Datasets bestimmen können. Verwenden Sie diese Module, um Datasets zu analysieren, um die besten Features zu finden, eine Reihe von Features zur Verwendung mit neuen Daten zu speichern oder einen vorhandenen Featuresatz zu aktualisieren.

Berechnen der linearen Korrelation

Verwenden Sie dieses Modul, um einen Satz von Pearson-Korrelationskoeffizienten für jedes mögliche Variablenpaar im Eingabe-Dataset zu berechnen. Der Pearson-Korrelationskoeffizient, auch als "Pearsons R-Test" bezeichnet, ist ein statistischer Wert, der die lineare Beziehung zwischen zwei Variablen misst.

Dieses Modul befindet sich in der Kategorie Statistische Funktionen.

Liste der Module

Die Kategorie Funktionsauswahl umfasst die folgenden Module:

Filterbasierte Featureauswahl: Identifiziert die Features in einem Dataset mit der größten Vorhersageleistung.
Fisher Linear Discriminant Analysis:Identifiziert die lineare Kombination von Featurevariablen, die Daten am besten in separate Klassen gruppieren können.
Permutation Feature Importance (Permutation Feature Importance): Berechnet die Permutation Feature Importance Scores von Featurevariablen für ein trainiertes Modell und ein Test-Dataset.

Siehe auch

Modulkategorien und Beschreibungen