Hauptkomponentenanalyse

Berechnet einen Satz von Merkmalen mit weniger Dimensionen für effizienteres Lernen.

Kategorie: Data Transformation/Sample and Split

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul für die Hauptkomponentenanalyse in Azure Machine Learning Studio (klassisch) verwenden, um die Dimensionalität Ihrer Trainingsdaten zu verringern. Das Modul analysiert Ihre Daten und erstellt einen reduzierten Featuresatz, der alle Informationen erfasst, die im DataSet enthalten sind, jedoch in einer kleineren Anzahl von Features.

Das Modul erstellt außerdem eine Transformation, die auf neue Daten angewendet werden kann, um eine ähnliche Reduzierung der Dimensionalität und Komprimierung von Funktionen zu erreichen, ohne dass zusätzliches Training erforderlich ist.

Weitere Informationen zur Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist eine beliebte Technik in Machine Learning. Es beruht auf der Tatsache, dass viele Arten von Vektorraum Daten komprimiert werden können, und dass die Komprimierung durch Sampling am effizientesten erreicht werden kann.

Die Vorteile von PCA sind eine verbesserte Datenvisualisierung und die Optimierung der Ressourcenverwendung durch den Lernalgorithmus.

Das Modul für die Hauptkomponentenanalyse in Azure Machine Learning Studio (klassisch) übernimmt eine Reihe von featurespalten im bereitgestellten DataSet und erstellt eine Projektion des Merkmals Raums mit geringerer Dimensionalität. Der Algorithmus verwendet zufällige Techniken, um einen Funktionsteil Bereich zu identifizieren, der die meisten Informationen in der gesamten Featurematrix erfasst. Daher erfassen die transformierten datenmatrizen die Varianz in den ursprünglichen Daten und reduzieren gleichzeitig die Auswirkung von Rauschen und minimieren das Risiko der über Anpassung.

Allgemeine Informationen zur Principal Component Analysis (PCA) finden Sie in diesem Wikipedia-Artikel. Informationen zu den in diesem Modul verwendeten PCA-Ansätzen finden Sie in den folgenden Artikeln:

Konfigurieren der Hauptkomponentenanalyse

  1. Fügen Sie Ihrem Experiment das Modul für die Hauptkomponentenanalyse hinzu. Sie finden Sie unter Daten Transformation in der Kategorie skalieren und reduzieren .

  2. Verbinden Sie das DataSet, das Sie transformieren möchten, und wählen Sie die zu analysierenden Funktions Spalten aus.

    Wenn nicht bereits klar ist, welche Spalten Features sind und welche Bezeichnungen sind, wird empfohlen, dass Sie das Modul Edit Metadata verwenden, um die Spalten im Voraus zu markieren.

  3. Anzahl der Dimensionen, die reduziert werden sollen: Geben Sie die gewünschte Anzahl von Spalten in der endgültigen Ausgabe ein. Jede Spalte stellt eine Dimension dar, die einen Teil der Informationen in den Eingabe Spalten erfasst.

    Wenn das Quell Dataset z. b. über acht Spalten verfügt und Sie eingeben 3 , werden drei neue Spalten zurückgegeben, die die Informationen der acht ausgewählten Spalten erfassen. Die Spalten heißen Col1 , Col2 und Col3 . Diese Spalten werden nicht direkt den Quell Spalten zugeordnet. Stattdessen enthalten die Spalten eine Näherung des Funktions Raums, der in den ursprünglichen Spalten 1-8 beschrieben wird.

    Tipp

    Der Algorithmus funktioniert optimal, wenn die Anzahl der reduzierten Dimensionen wesentlich kleiner als die ursprünglichen Dimensionen ist.

  4. Dichtes DataSet auf Nullwert normalisieren: Wählen Sie diese Option aus, wenn das DataSet dicht ist, d. h., es enthält nur wenige fehlende Werte. Wenn diese Option aktiviert ist, normalisiert das Modul die Werte in den Spalten auf einen Mittelwert von 0 (null) vor jeder anderen Verarbeitung.

    Bei Datasets mit geringer Dichte sollte diese Option nicht ausgewählt werden. Wenn ein DataSet mit geringer Dichte erkannt wird, wird der-Parameter überschrieben.

  5. Führen Sie das Experiment aus.

Ergebnisse

Das Modul gibt eine reduzierte Gruppe von Spalten aus, die Sie zum Erstellen eines Modells verwenden können. Sie können die Ausgabe als neues Dataset speichern oder in Ihrem Experiment verwenden.

Optional können Sie den Analyseprozess als gespeicherte Transformation speichern, um ihn mithilfe von Apply Transformationauf ein anderes Dataset anzuwenden.

Das DataSet, auf das Sie die Transformation anwenden, muss das gleiche Schema wie das ursprüngliche DataSet aufweisen.

Beispiele

Beispiele für die Verwendung der Hauptkomponentenanalyse in Machine Learning finden Sie in den Azure AI Gallery:

  • Clustering: Suchen nach ähnlichen Unternehmen: verwendet die Hauptkomponentenanalyse, um die Anzahl von Werten aus dem Text Mining auf eine überschaubare Anzahl von Features zu reduzieren.

    Obwohl in diesem Beispiel PCA mit einem benutzerdefinierten R-Skript angewendet wird, wird veranschaulicht, wie PCA in der Regel verwendet wird.

Technische Hinweise

Es gibt zwei Phasen der Berechnung der unteren dimensionalen Komponenten.

  • Der erste besteht darin, einen klein dimensionalen Teilbereich zu erstellen, der die Aktion der Matrix aufzeichnet.
  • Die zweite besteht darin, die Matrix auf den Teilbereich zu beschränken und dann eine standardfaktorisierung der reduzierten Matrix zu berechnen.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Dataset, dessen Dimensionen reduziert werden sollen.

Modulparameter

Name Typ Range Optional BESCHREIBUNG Standard
Ausgewählte Spalten ColumnSelection Erforderlich Ausgewählte Spalten, auf die PCA angewendet werden soll.
Anzahl der Dimensionen, auf die reduziert werden soll. Integer >=1 Erforderlich Die Anzahl der gewünschten Dimensionen im reduzierten Dataset.
Normalize dense dataset to zero mean Boolean Erforderlich true Gibt an, ob die Eingabespalten für dichte Datasets mittelwertnormalisiert werden (bei geringen Datenmengen wird der Parameter ignoriert).

Ausgaben

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Dataset mit reduzierten Dimensionen
PCA-Transformation ITransform-Schnittstelle Transformation, die ein Dataset in ein neues Dataset mit reduzierten Dimensionen umwandelt.

Ausnahmen

Ausnahme Beschreibung
Fehler 0001 Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0004 Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Sample und Split
Featureauswahl