Entscheidungswald mit mehreren Klassen

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erstellt ein mehrklassiges Klassifizierungsmodell unter Verwendung des Decision Forest-Algorithmus

Kategorie: Machine Learning/Modell initialisieren/Klassifizierung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Multiclass Decision Forest-Modul in Machine Learning Studio (klassisch) verwenden, um ein Machine Learning-Modell auf Grundlage des Entscheidungswaldalgorithmus zu erstellen. Eine Entscheidungswaldstruktur ist ein Ensemblemodell, das sehr schnell eine Reihe von Entscheidungsstrukturen erstellt und gleichzeitig aus markierten Daten lernt.

Weitere Informationen zu Entscheidungswäldern

Der Entscheidungswald-Algorithmus ist eine Ensemble-Lernmethode für die Klassifizierung. Der Algorithmus funktioniert dergestalt, dass mehrere Entscheidungsbäume erstellt werden und dann für die beliebteste Ausgabeklasse abstimmt wird. Die Abstimmung ist eine Form der Aggregation, bei der jeder Baum in einem Entscheidungswald zur Klassifizierung ein nicht normalisiertes Histogramm der Häufigkeit von Bezeichnungen ausgibt. Der Aggregationsprozess summiert diese Histogramme und normalisiert das Ergebnis, um die „Wahrscheinlichkeiten“ für jede Bezeichnung abzurufen. Die Bäume mit hoher Vorhersagesicherheit haben bei der endgültigen Entscheidung des Ensembles eine größere Gewichtung.

Entscheidungsbäume sind im Allgemeinen nichtparametrische Modelle, die demnach Daten mit unterschiedlichen Verteilungen unterstützen. In jedem Baum erfolgt für jede Klasse eine Abfolge einfacher Tests, wobei die Ebenen einer Baumstruktur erhöht werden, bis ein Blattknoten (die Entscheidung) erreicht ist.

Entscheidungsbäume haben zahlreiche Vorteile:

  • Sie können nicht lineare Entscheidungsgrenzen darstellen.
  • Sie sind während des Trainings und der Vorhersage effizient bei der Berechnung und der Arbeitsspeicherauslastung.
  • Sie führen eine integrierte Featureauswahl und -klassifizierung durch.
  • Sie sind resilient gegen störende Features.

Die Entscheidungswaldklassifizierung in Machine Learning Studio (klassisch) besteht aus einem Ensemble von Entscheidungsstrukturen. Im Allgemeinen bieten Ensemblemodelle eine bessere Abdeckung und Genauigkeit als einzelne Entscheidungsbäume. Weitere Informationen finden Sie unter Entscheidungsbäume.

Konfigurieren des Moduls „Multiclass Decision Forest“

Tipp

Wenn Sie sich der besten Parameter nicht sicher sind, empfehlen wir Ihnen, das Modul Tune Model Hyperparameters zu verwenden, um mehrere Modelle zu trainieren und zu testen und die optimalen Parameter zu finden.

  1. Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Multiclass Decision Forest hinzu. Sie finden dieses Modul unter Machine Learning, Initialize (Initialisieren), Classification (Klassifizierung).

  2. Doppelklicken Sie auf das Modul, um den Bereich Properties (Eigenschaften) zu öffnen.

  3. Wählen Sie für Resampling method (Methode für Wiederholungsprobennahme) die Methode aus, mit der die einzelnen Bäume erstellt wurden. Sie können zwischen Bagging oder Replikation wählen.

    • Bagging: Bagging ist die Abkürzung von Bootstrap aggregating. Bei dieser Methode basiert jeder Baum auf einer neuen Stichprobe, die mithilfe von Zufallsstichproben des ursprünglichen Datasets mit Austausch erstellt wird, bis Sie ein Dataset mit der Größe des Originals erhalten. Die Ausgaben der Modelle werden durch Abstimmung kombiniert, was eine Form von Aggregation ist. Weitere Informationen finden Sie im Wikipedia-Eintrag zu „Bootstrap aggregating“.

    • Replikation: Bei der Replikation wird jede Struktur mit genau denselben Eingabedaten trainiert. Die Bestimmung, welches Aufteilungsprädikat für jeden Baumknoten verwendet wird, bleibt zufällig, wodurch verschiedene Bäume entstehen.

    Anleitungen finden Sie im Abschnitt Konfigurieren eines Entscheidungswaldmodells mit mehreren Klassen .

  4. Geben Sie an, wie das Modell trainiert werden soll, indem Sie die Option Create trainer mode (Trainermodus erstellen) aktivieren.

    • Single Parameter (Einzelner Parameter): Wählen Sie diese Option, wenn Sie wissen, wie Sie das Modell konfigurieren möchten, und geben Sie eine bestimmte Menge von Werten als Argumente an.

    • Parameterbereich: Verwenden Sie diese Option, wenn Sie die besten Parameter nicht sicher sind und einen Parameter-Sweep verwenden möchten.

  5. Number of decision trees (Anzahl von Entscheidungsbäumen): Geben Sie die maximale Anzahl von Entscheidungsbäumen ein, die im Ensemble erstellt werden können. Mit einer höheren Anzahl von Entscheidungsbäumen erzielen Sie möglicherweise eine bessere Abdeckung, allerdings verlängert sich dadurch ggf. die Trainingsdauer.

    Dieser Wert steuert auch die Anzahl von Bäumen in den Ergebnissen, wenn das trainierte Modell visualisiert wird. Um einen einzelnen Baum anzuzeigen oder auszugeben, können Sie den Wert auf 1 festlegen. Das bedeutet jedoch, dass nur ein Baum erzeugt werden kann (der Baum mit der anfänglichen Menge von Parametern) und keine weiteren Iterationen erfolgen.

  6. Maximum depth of the decision trees (Maximale Tiefe der Entscheidungsbäume): Geben Sie einen Wert ein, um die maximale Tiefe der Entscheidungsbäume zu begrenzen. Eine größere Tiefe des Baums kann die Genauigkeit erhöhen, wobei das Risiko einer Überanpassung und einer längeren Trainingsdauer besteht.

  7. Number of random splits per node (Anzahl zufälliger Aufteilungen pro Knoten): Geben Sie die Anzahl der Aufteilungen ein, die beim Erstellen der einzelnen Knoten des Baums verwendet werden sollen. Eine Aufteilung bedeutet, dass Features auf jeder Ebene des Baums (Knotens) zufällig aufgeteilt werden.

  8. Minimum number of samples per leaf node (Minimale Anzahl der Stichproben pro Blattknoten): Geben Sie unter „Minimum number of samples per leaf node“ die Anzahl von Fällen an, die zum Erstellen eines Endknotens (Blatts) in einem Baum erforderlich sind. Wenn Sie diesen Wert heraufsetzen, erhöht sich der Schwellenwert für die Erstellung neuer Regeln.

    Bei Verwendung des Standardwerts „1“ reicht für die Erstellung einer neuen Regel beispielsweise bereits ein einzelner Fall aus. Wenn Sie den Wert auf „5“ erhöhen, müssen die Trainingsdaten mindestens fünf Fälle enthalten, die die gleichen Bedingungen erfüllen.

  9. Unbekannte Werte für kategorische Features zulassen: Wählen Sie diese Option aus, um eine Gruppe für unbekannte Werte in den Trainings- oder Validierungssätzen zu erstellen. Das Modell ist bei bekannten Werten u. U. weniger genau, liefert dafür jedoch bessere Vorhersagen für neue (unbekannte) Werte.

    Wenn Sie diese Option deaktivieren, kann das Modell nur die Werte akzeptieren, die in den Trainingsdaten vorhanden sind.

  10. Verbinden ein bezeichnetes Datset und eines der Trainingsmodule:

    • Wenn Sie Create trainer mode (Trainermodus erstellen) auf Single Parameter (Einzelner Parameter) festlegen, müssen Sie das Modul Train Model (Trainieren des Modells) verwenden.

    • Wenn Sie die Option Trainermodus erstellen auf Parameterbereich festlegen, verwenden Sie das Modul Tune Model Hyperparameters . Mit dieser Option kann der Trainer mehrere Kombinationen der Einstellungen iterieren und die Parameterwerte bestimmen, die das beste Modell erzeugen.

    Hinweis

    Wenn Sie einen Parameterbereich an Train Model übergeben, wird nur der erste Wert in der Parameterbereichsliste verwendet.

    Wenn Sie eine einzelne Reihe bestimmter Parameterwerte an das Modul Tune Model Hyperparameters übergeben und ein Bereich von Einstellungen für jeden Parameter erwartet wird, werden die Werte ignoriert und stattdessen die Standardwerte für den Learner verwendet.

    Wenn Sie die Option Parameter Range (Parameterbereich) auswählen und einen einzelnen Wert für einen beliebigen Parameter eingeben, wird dieser angegebene einzelne Wert während des gesamten Löschvorgangs verwendet, auch wenn andere Parameter in einem Wertebereich geändert werden.

  11. Führen Sie das Experiment aus.

Ergebnisse

Nach Abschluss des Trainings:

  • Um die Struktur anzuzeigen, die bei jeder Iteration erstellt wurde, klicken Sie mit der rechten Maustaste auf Train Model module (Modell trainieren ), und wählen Sie trainiertes Modell aus, um es zu visualisieren. Wenn Sie Tune Model Hyperparameters verwenden, klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Trainiertes bestes Modell aus, um das beste Modell zu visualisieren. Um die Regeln für jeden Knoten anzuzeigen, klicken Sie auf jeden Baum, um die Aufteilungen detailliert zu analysieren.

Beispiele

Beispiele für die Verwendung von Entscheidungswaldstrukturen beim maschinellen Lernen finden Sie im Azure KI-Katalog:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Details zur Implementierung

Jede Struktur in einer Klassifizierungsentscheidungsgewaldung gibt ein nicht normalisiertes Frequency-Histogramm von Bezeichnungen aus. Die Aggregationsprozess führt dann die Summierung und Normalisierung dieser Histogramme durch, um die „Wahrscheinlichkeiten“ für jede Bezeichnung abzurufen. Auf diese Weise haben die Strukturen mit hoher Vorhersagesicherheit eine größere Gewichtung in der endgültigen Entscheidung des Ensembles.

Weitere Informationen zum Trainingsprozess mit der Option Replizieren finden Sie unter:

Konfigurieren eines "Multiclass Decision Forest"-Modells

Sie können die Konfiguration des Moduls ändern, um Szenarien wie zu wenig Daten oder eine begrenzte Zeit für das Training zu berücksichtigen.

Begrenzte Trainingszeit

Wenn das Trainingsset eine große Anzahl von Instanzen enthält, die verfügbare Zeit für das Training des Modells aber begrenzt ist, versuchen Sie diese Optionen:

  • Erstellen Sie einen Entscheidungswald (Decision Forest), der eine geringere Anzahl von Entscheidungsbäumen verwendet (beispielsweise 5 bis 10).
  • Verwenden Sie die Option Replicate für die Neuberechnung.
  • Geben Sie eine kleinere Anzahl von zufälligen Splits pro Knoten an (zum Beispiel weniger als 100).

Eingeschränkter Trainingssatz

Wenn das Trainingsset eine begrenzte Anzahl von Instanzen enthält, versuchen Sie diese Optionen:

  • Erstellen Sie einen Entscheidungswald (Decision Forest) mithilfe einer großen Anzahl von Entscheidungsbäumen (z. B. mehr als 20).
  • Verwenden Sie die Option Bagging für die Neuberechnung.
  • Geben Sie eine große Anzahl von zufälligen Splits pro Knoten an (zum Beispiel mehr als 1.000).

Modulparameter

Name Range type Standard Beschreibung
Resampling method Any ResamplingMethod Bagging Auswählen einer Resamplingmethode: Bagging oder Replicate
Number of decision trees >=1 Integer 8 Angeben der im Ensemble zu erstellenden Anzahl von Entscheidungsbäumen.
Maximum depth of the decision trees >=1 Integer 32 Angeben der maximalen Tiefe aller Entscheidungsbäume, die erstellt werden können.
Number of random splits per node >=1 Integer 128 Angeben der Anzahl der pro Knoten generierten Splits, aus denen der optimale Split ausgewählt wird.
Minimum number of samples per leaf node >=1 Integer 1 Angeben der Mindestanzahl von Trainingssamples, die zum Generieren eines Blattknotens erforderlich sind.
Allow unknown values for categorical features Any Boolean True Angeben, ob unbekannte Werte von vorhandenen Kategoriemerkmalen einem neuen, zusätzlichen Merkmal zugeordnet werden können.

Ausgaben

Name Type BESCHREIBUNG
Untrainiertes Modell ILearner-Schnittstelle Ein untrainiertes mehrklassiges Klassifizierungsmodell

Siehe auch

Klassifizierung
Entscheidungswald mit zwei Klassen
Entscheidungswaldregression
Modulliste von A bis Z