Fisher Linear Discriminant Analysis

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Gibt die lineare Kombination von Merkmalsvariablen an, die Daten optimal in gesonderte Klassen gruppieren kann.

Kategorie: Funktionsauswahlmodule

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Fisher Linear Discriminant Analysis-Modul in Machine Learning Studio (klassisch) verwenden, um ein neues Featuredataset zu erstellen, das die Kombination von Features erfasst, die zwei oder mehr Klassen am besten trennen.

Diese Methode wird häufig zur Verringerung der Dimensionalität verwendet, da sie einen Satz von Merkmalen auf einen kleineren Merkmalsraum projiziert und gleichzeitig die Informationen zur Unterscheidung von Klassen beibehält. Damit können Sie den Rechenaufwand für Klassifizierungsvorgänge reduzieren und gleichzeitig eine Überanpassung vermeiden.

Um die Bewertungen zu generieren, geben Sie eine Bezeichnungsspalte und einen Satz numerischer Featurespalten als Eingaben an. Der Algorithmus bestimmt die optimale Kombination der Eingabespalten, die die einzelnen Datengruppen linear trennt, und minimiert gleichzeitig die Abstände innerhalb jeder Gruppe. Das Modul gibt ein Dataset zurück, das die kompakten, transformierten Features sowie eine Transformation enthält, die Sie speichern und auf ein anderes Dataset anwenden können.

Weitere Informationen zur linearen diskriminanten Analyse

Die lineare diskriminante Analyse ähnelt der Varianzanalyse (ANOVA), da sie funktioniert, indem die Mittel der Variablen verglichen werden. Wie ANOVA basiert sie auf diesen Annahmen:

Prädiktoren sind voneinander unabhängig.
Die Funktionen der bedingten Wahrscheinlichkeitsdichte jeder Stichprobe werden normalerweise verteilt.
Abweichungen zwischen Gruppen sind ähnlich.

Die lineare diskriminante Analyse wird manchmal mit LDA abgekürzt, aber dies ist leicht mit latenter Dirichletzuordnung zu verwechseln. Die Techniken unterscheiden sich vollständig. Daher verwenden wir in dieser Dokumentation nach Möglichkeit die vollständigen Namen.

Konfigurieren der linearen diskriminanten Analyse

Fügen Sie Ihr Eingabedataset hinzu, und überprüfen Sie, ob die Eingabedaten die folgenden Anforderungen erfüllen:
- Ihre Daten sollten so vollständig wie möglich sein. Zeilen mit fehlenden Werten werden ignoriert.
- Es wird erwartet, dass die Werte eine Normalverteilung aufweisen. Überprüfen Sie vor der Verwendung der linearen Diskriminanzanalyse von Fisher die Daten auf Ausreißer, oder testen Sie die Verteilung.
- Sie sollten über weniger Prädiktoren verfügen, als Beispiele vorhanden sind.
- Entfernen Sie alle nicht numerischen Spalten. Der Algorithmus untersucht alle gültigen numerischen Spalten, die in den Eingaben enthalten sind, und gibt einen Fehler zurück, wenn ungültige Spalten enthalten sind. Wenn Sie numerische Spalten ausschließen müssen, fügen Sie vor Fisher Linear Discriminant Analysis ein Modul Select Columns in Dataset (Spalten im Dataset auswählen) hinzu, um eine Ansicht zu erstellen, die nur die Spalten enthält, die Sie analysieren möchten. Sie können die Spalten später mithilfe von Spalten hinzufügen erneut hinzufügen. Die ursprüngliche Reihenfolge der Zeilen wird beibehalten.
Verbinden die Eingabedaten an das Fisher Linear Discriminant Analysis-Modul.
Klicken Sie für Spalte Klassenbezeichnungen auf Spaltenauswahl starten , und wählen Sie eine Bezeichnungsspalte aus.
Geben Sie für Number of feature extractors (Anzahl von Featureextraktoren) die Gewünschte Anzahl von Spalten ein.

Wenn Ihr Dataset beispielsweise acht numerische Featurespalten enthält, können Sie eingeben 3 , um sie in einen neuen, reduzierten Featurebereich von nur drei Spalten zu reduzieren.

Es ist wichtig zu verstehen, dass die Ausgabespalten nicht genau den Eingabespalten entsprechen, sondern eine kompakte Transformation der Werte in den Eingabespalten darstellen.

Wenn Sie 0 als Wert für Number of feature extractors (Anzahl von Featureextraktoren) und n Spalten als Eingabe verwenden, werden n Featureextraktoren zurückgegeben, die neue Werte enthalten, die den n-dimensionalen Featurebereich darstellen.
Führen Sie das Experiment aus.

Ergebnisse

Der Algorithmus bestimmt die Kombination von Werten in den Eingabespalten, die jede Datengruppe linear trennt, während die Abstände innerhalb jeder Gruppe minimiert werden, und erstellt zwei Ausgaben:

Transformierte Features. Ein Dataset, das die angegebene Anzahl von Featureextraktorspalten namens col1, col2, col3 usw. enthält. Die Ausgabe enthält auch die Klassen- oder Bezeichnungsvariable.

Sie können diesen kompakten Satz von Werten zum Trainieren eines Modells verwenden.
Fisher lineare diskriminante Analysetransformation. Eine Transformation, die Sie speichern und dann auf ein Dataset mit demselben Schema anwenden können. Dies ist nützlich, wenn Sie viele Datasets desselben Typs analysieren und die gleiche Featurereduzierung auf jedes Dataset anwenden möchten. Das Dataset, auf das Sie es anwenden, sollte das gleiche Schema aufweisen.

Beispiele

Beispiele für die Funktionsauswahl beim maschinellen Lernen finden Sie im Azure KI-Katalog:

Fisher Linear Discriminant Analysis: Veranschaulicht, wie dieses Modul zur Verringerung der Dimensionalität verwendet wird.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Verwendungstipps

Diese Methode funktioniert nur bei kontinuierlichen Variablen, nicht Kategorie- oder Ordinalvariablen.
Zeilen mit fehlenden Werten werden bei der Berechnung der Transformationsmatrix ignoriert.
Wenn Sie eine Transformation aus einem Experiment speichern, werden die aus dem ursprünglichen Experiment berechneten Transformationen erneut auf jeden neuen Satz von Daten angewendet und nicht neu berechnet. Wenn Sie daher einen neuen Featuresatz für jeden Satz von Daten berechnen möchten, verwenden Sie eine neue Instanz von Fisher Linear Discriminant Analysis für jedes Dataset.

Details zur Implementierung

Das Dataset mit Features wird mit Eigenvektoren transformiert. Die Eigenvektoren für das Eingabedataset werden basierend auf den bereitgestellten Featurespalten berechnet, die auch als Unterscheidungsmatrix bezeichnet werden.

Die Transformationsausgabe des Moduls enthält diese Eigenvektoren, die zum Transformieren eines anderen Datasets mit demselben Schema angewendet werden können.

Weitere Informationen zur Berechnung der Eigenwerte finden Sie in diesem Dokument (PDF): Eigenvector-based Feature Extraction for Classification (Eigenvector-basierte Featureextraktion für die Klassifizierung). Tymbal, Puuronen et al.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Eingabedataset

Modulparameter

Name	Typ	Range	Optional	Standard	Beschreibung
Class labels column	ColumnSelection		Erforderlich	Keine	Wählen Sie die Spalte aus, die die Kategorieklassenbezeichnungen enthält.
Anzahl der Merkmalsextraktionen	Integer	>=0	Erforderlich	0	Anzahl der zu verwendenden Merkmalsextraktionen. Bei 0 (null) werden alle Merkmalsextraktionen verwendet

Ausgaben

Name	Type	Beschreibung
Transformierte Merkmale	Datentabelle	Fisher linear diskriminant analysis features transform to eigenvector space (Lineare diskriminante Analysefeatures von Fisher in Eigenvektorraum transformiert)
Transformation der Fisher Linear Discriminant Analysis	ITransform-Schnittstelle	Die Transformation der Fisher Linear Discriminant Analysis

Ausnahmen

Ausnahme	Beschreibung
Fehler 0001	Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0017	Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Featureauswahl
Filterbasierte Featureauswahl
Hauptkomponentenanalyse (Principal Component Analysis)