Featureauswahlmodule

In diesem Artikel werden die Module in Azure Machine Learning Studio (klassisch) beschrieben, die Sie für die Funktionsauswahl verwenden können.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Die Featureauswahl ist ein wichtiges Tool in Machine Learning. Machine Learning Studio (klassisch) bietet mehrere Methoden zum Durchführen der Funktionsauswahl. Wählen Sie eine Funktionsauswahl Methode basierend auf dem Typ der Daten, die Sie besitzen, und den Anforderungen des statistischen Verfahrens, das angewendet wird.

In diesem Artikel wird Folgendes behandelt:

Jedes featureauswahlmodul in Machine Learning Studio (klassisch) verwendet ein DataSet als Eingabe. Dann wendet das Modul bekannte statistische Methoden auf die Datenspalten an, die als Eingabe bereitgestellt werden. Bei der Ausgabe handelt es sich um einen Satz von Metriken, die Ihnen helfen können, die Spalten mit dem besten Informationswert zu identifizieren.

Informationen zur Funktionsauswahl

In Machine Learning und Statistiken ist die Funktionsauswahl der Prozess, bei dem Sie eine Teilmenge relevanter, nützlicher Features auswählen, die beim Aufbau eines analytischen Modells verwendet werden sollen. Die Featureauswahl hilft, das Daten Feld auf die nützlichsten Eingaben einzugrenzen. Durch die Einschränkung des Daten Felds können Sie das Rauschen reduzieren und die Trainingsleistung verbessern.

Häufig werden Features aus Rohdaten durch einen Prozess der Featureentwicklung erstellt. Beispielsweise ist ein Zeitstempel in sich möglicherweise nicht für die Modellierung hilfreich, bis die Informationen in Einheiten von Tagen, Monaten oder Kategorien transformiert werden, die für das Problem relevant sind, z. b. Feiertag und Arbeitstag.

Neue Benutzer von Machine Learning könnten in Versuchung geraten, alle verfügbaren Daten einzubeziehen. Sie erwarten möglicherweise, dass der Algorithmus durch die Verwendung von mehr Daten etwas Interessantes findet. Allerdings kann die Funktionsauswahl in der Regel das Modell verbessern und häufige Probleme verhindern:

  • Die Daten enthalten redundante oder irrelevante Funktionen, die keine weiteren Informationen bereitstellen als die aktuell ausgewählten Funktionen.
  • Die Daten enthalten irrelevante Funktionen, die keine nützlichen Informationen in einem beliebigen Kontext bereitstellen. Wenn Sie irrelevante Felder einschließen, erhöht sich nicht nur die Zeit, die zum Trainieren der Daten erforderlich ist, sondern auch zu schlechten Ergebnissen führen können.
  • Bei einigen Algorithmen kann das vorhanden sein von duplizierten Informationen in den Trainingsdaten zu einem Phänomen namens " multicollinearity" führen. In der multikurarität kann das vorhanden sein von zwei stark korrelierten Variablen bewirken, dass die Berechnungen für andere Variablen wesentlich weniger genau werden.

Tipp

Bei manchen Machine Learning-Algorithmen in Machine Learning Studio (klassisch) wird auch die Featureauswahl oder die Verringerung der Dimensionalität im Rahmen des Trainingsprozesses verwendet. Wenn Sie diese Lernmodule verwenden, können Sie die Merkmalsauswahl überspringen und die Auswahl der besten Eingaben dem Algorithmus überlassen.

Verwenden der Funktionsauswahl in einem Experiment

Die Funktionsauswahl erfolgt in der Regel, wenn Sie Daten untersuchen und ein neues Modell entwickeln. Behalten Sie diese Tipps im Hinterkopf, wenn Sie die Featureauswahl verwenden:

  • Fügen Sie dem Experiment beim Testen eine Funktionsauswahl hinzu, um Ergebnisse zu generieren, die ihre Entscheidung über die zu verwendenden Spalten informieren.
  • Entfernen Sie die Funktionsauswahl aus dem Experiment, wenn Sie ein Modell operationalisieren.
  • Führen Sie die Featureauswahl regelmäßig aus, um sicherzustellen, dass sich die Daten und die besten Features

Die Funktionsauswahl unterscheidet sich von der Featureentwicklung, die sich auf das Erstellen neuer Features aus vorhandenen Daten konzentriert.

Ressourcen

Funktionsauswahl Methoden in Machine Learning Studio (klassisch)

Die folgenden featureauswahlmodule werden in Machine Learning Studio (klassisch) bereitgestellt.

Filter Based Feature Selection

Wenn Sie das Modul " Filter basierte Featureauswahl " verwenden, können Sie zwischen bekannten Methoden zur Funktionsauswahl auswählen. Das Modul gibt sowohl die featureauswahlstatistik als auch das gefilterte DataSet aus.

Welche Filterauswahlmethode Sie auswählen, hängt zum Teil von Ihren Eingabedaten ab.

Methode Unterstützte Merkmaleingaben Unterstützte Bezeichnungen
Pearsonsche Korrelation Nur numerische und logische Spalten Eine einzelne numerische oder logische Spalte
Transinformationsbewertung Alle Datentypen Eine einzelne Spalte eines beliebigen Datentyps
Kendallscher Korrelationskoeffizient Nur numerische und logische Spalten Eine einzelne numerische oder logische Spalte

Spalten sollten Werte aufweisen, die sortiert werden können.
Spearmanscher Korrelationskoeffizient Nur numerische und logische Spalten Eine einzelne numerische oder logische Spalte
Chi-Quadrat-Statistik Alle Datentypen Eine einzelne Spalte eines beliebigen Datentyps
Fisher-Bewertung Nur numerische und logische Spalten Eine einzelne numerische oder logische Spalte

Zeichen folgen Spalten wird eine Bewertung von 0 zugewiesen.
Anzahlbasierte Merkmalsauswahl Alle Datentypen Eine Bezeichnungsspalte ist nicht erforderlich.

Fisher Linear Discriminant Analysis

Die lineare Diskriminante Analyse ist ein überwachtes Lernverfahren, das Sie verwenden können, um numerische Variablen in Verbindung mit einem einzelnen kategorischen Ziel zu klassifizieren. Die Methode eignet sich für die Merkmalsauswahl, da sie die Kombination von Merkmalen oder Parametern identifiziert, die die Gruppen am besten trennt.

Sie können das Modul Fisher linear diskriminant Analysis verwenden, um eine Reihe von Bewertungen zur Überprüfung zu generieren, oder Sie können das Ersetzungs DataSet verwenden, das vom Modul für das Training generiert wurde.

Permutation Feature Importance (PFI)

Verwenden Sie das Modul permutations Feature Wichtigkeit , um die Auswirkung eines Satzes von Features auf das DataSet zu simulieren. Das Modul berechnet Leistungsergebnisse für ein Modell, das auf einer zufälligen Funktion der featurewerte basiert.

Die vom Modul zurückgegebenen Ergebnisse stellen die mögliche Änderung der Genauigkeit eines trainierten Modells dar, wenn sich die Werte ändern. Sie können die Ergebnisse verwenden, um die Auswirkung einzelner Variablen auf das Modell zu bestimmen.

Machine Learning-Algorithmen, die die Funktionsauswahl einbeziehen

Einige Machine Learning-Algorithmen in Machine Learning Studio (klassisch) optimieren die Funktionsauswahl während des Trainings. Sie können auch Parameter bereitstellen, die die Funktionsauswahl unterstützen. Wenn Sie eine Methode verwenden, die über eine eigene Heuristik zum Auswählen von Features verfügt, ist es oft besser, sich auf diese heuristische Methode zu verlassen, anstatt Features vorab auszuwählen.

Diese Algorithmen und Featureauswahlmethoden werden intern verwendet:

  • Verstärkte Entscheidungsstruktur Modelle für Klassifizierung und Regression

    In diesen Modulen wird intern eine featurezusammenfassung erstellt. Funktionen mit einer Gewichtung von 0 werden von Struktur Teilungen nicht verwendet. Wenn Sie das am besten trainierte Modell visualisieren, können Sie sich die einzelnen Strukturen ansehen. Wenn eine Funktion niemals in einer Struktur verwendet wird, ist das Feature wahrscheinlich ein Kandidat für die Entfernung. Um die Auswahl zu optimieren, empfiehlt es sich auch, den Parameter Schwung zu verwenden.

  • Logistische Regressionsmodelle und lineare Modelle

    Die Module für die mehr klassige und binäre logistische Regression unterstützen die Regularisierung L1 und L2. Regularisierung ist eine Möglichkeit, während des Trainings Einschränkungen hinzuzufügen, um manuell einen Aspekt des gelernten Modells anzugeben. Regularisierung wird normalerweise verwendet, um eine über Anpassung zu vermeiden. Machine Learning Studio (klassisch) unterstützt die Regularisierung der L1-oder L2-Norm des Gewichtungs Vektors in linearen Klassifizierungs Algorithmen:

    • Die L1-Regularisierung ist nützlich, wenn das Ziel ist, ein Modell zu haben, das so dünn wie möglich ist.
    • L2-Regularisierung verhindert, dass jeder einzelnen Koordinate im Gewichtungsvektor zu viel Bedeutung zugewiesen wird. Dies ist hilfreich, wenn ein Modell mit kleinen Gesamt Gewichtungen vorhanden sein soll.
    • Die L1-regularisierte logistische Regression ist aggressiver, wenn den Features eine Gewichtung von 0 zugewiesen wird. Es ist nützlich, um Features zu identifizieren, die entfernt werden können.

Technische Hinweise

Alle featureauswahlmodule und analytischen Methoden, die numerische und logische Spalten unterstützen, unterstützen auch Datums-und TimeSpan-Spalten. Diese Spalten werden als einfache numerische Spalten behandelt, in denen jeder Wert der Anzahl der Ticks gleicht.

Die folgenden Module sind nicht in der featureauswahlkategorie , Sie können jedoch für Verwandte Aufgaben verwendet werden. Die Module können Ihnen helfen, die Dimensionalität der Daten zu reduzieren oder Korrelationen zu finden:

Wenn Sie über ein DataSet mit vielen Spalten verfügen, verwenden Sie das Modul für die Hauptkomponentenanalyse , um die Spalten zu ermitteln, die die meisten Informationen zu den ursprünglichen Daten enthalten.

Dieses Modul befindet sich in der Kategorie Daten Transformation unter skalieren und reduzieren.

Count-based Featurebereitstellung ist eine neue Technik, mit der Sie nützliche Features mithilfe großer Datasets ermitteln können. Verwenden Sie diese Module, um Datasets zu analysieren, um die besten Features zu finden, eine Reihe von Features für die Verwendung mit neuen Daten zu speichern oder eine vorhandene Funktionsgruppe zu aktualisieren.

Verwenden Sie dieses Modul, um einen Satz von Pearson-Korrelationskoeffizienten für jedes mögliche Paar von Variablen im Eingabe DataSet zu berechnen. Der Pearson-Korrelationskoeffizient, auch als Pearson-R-Test bezeichnet, ist ein statistischer Wert, der die lineare Beziehung zwischen zwei Variablen misst.

Dieses Modul befindet sich in der Kategorie statistische Funktionen .

Liste der Module

Die Kategorie Funktionsauswahl enthält folgende Module:

Weitere Informationen