Mehrklassiger Entscheidungsdschungel

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erstellt ein mehrklassiges Klassifizierungsmodell unter Verwendung des Entscheidungsdschungelalgorithmus

Kategorie: Machine Learning/Modell initialisieren/Klassifizierung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul "Multiclass Decision Algorithm" in Machine Learning Studio (klassisch) verwenden, um ein Machine Learning-Modell zu erstellen, das auf einem überwachten Lernalgorithmus namens Entscheidungserteilungen basiert.

Sie definieren das Modell und seine Parameter mithilfe dieses Moduls und verbinden dann ein bezeichnetes Trainingsdatensatz, um das Modell mit einem der Trainingsmodule zu trainieren. Das trainierte Modell kann verwendet werden, um ein Ziel mit mehreren Werten vorherzusagen.

Weitere Informationen zu Entscheidungsträgern

Entscheidungsstrukturen sind eine aktuelle Erweiterung von Entscheidungsstrukturen. Ein Entscheidungsdschungel (decision jungle) besteht aus einem Ensemble von gerichteten azyklischen Entscheidungsgraphen (DDAGs).

Entscheidungsdschungel (decision jungle) haben die folgenden Vorteile:

  • Dadurch, dass Baumverzweigungen zusammengeführt werden können, verfügt ein Entscheidungs-DAG in der Regel über einen geringeren Arbeitsspeicherbedarf und eine höhere Generalisierungsleistung als ein Entscheidungsbaum, obgleich dies auf Kosten einer etwas höheren Trainingszeit erzielt wird.

  • Entscheidungsdschungel (decision jungle) sind nicht parametrische Modelle, die nicht lineare Entscheidungsgrenzen darstellen können.

  • Sie führen integrierte Merkmalsauswahl und Klassifizierung durch und sind in Gegenwart verrauschter Merkmale robust.

Weitere Informationen zu den Forschungen hinter diesem Machine Learning-Algorithmus finden Sie unter Decision Learnings: Compact and Rich Models for Classification (Entscheidungsklassen: Kompakte und umfangreiche Modelle für die Klassifizierung) (pdf-Download).

Konfigurieren des Multiklassen-Entscheidungsmodells

  1. Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Multiclass Decision Module hinzu. Sie finden dieses Modul unter Machine Learning, Initialize (Initialisieren), Classification (Klassifizierung).

  2. Doppelklicken Sie auf das Modul, um den Bereich Properties (Eigenschaften) zu öffnen.

  3. Wählen Sie die Methode für das Resampling aus, um mehrere Strukturen zu erstellen, entweder Bagging oder Replikation.

    • Bagging: Wählen Sie diese Option aus, um Bagging zu verwenden, auch als Bootstrapaggregating bezeichnet.

      Jeder Baum in einem Entscheidungswald gibt mittels Prognose eine Gauß-Verteilung aus. Aufgabe der Aggregation ist es, eine Gauß-Verteilung zu finden, deren erste zwei Momente mit den Momenten der Mischung der Gauß-Verteilungen übereinstimmen, die sich durch Kombination aller von den einzelnen Bäumen zurückgegebenen Gauß-Verteilungen ergeben.

    • Replizieren: Wählen Sie diese Option aus, um die Replikation zu verwenden. Bei dieser Methode wird jede Struktur mit genau denselben Eingabedaten trainiert. Die Bestimmung, welches Teilungs prädikat für jeden Strukturknoten verwendet wird, bleibt zufällig, sodass verschiedene Strukturen erstellt werden.

  4. Geben Sie an, wie das Modell trainiert werden soll, indem Sie die Option Create trainer mode (Trainermodus erstellen) aktivieren.

    • Einzelner Parameter: Verwenden Sie diese Option, wenn Sie wissen, wie Sie das Modell konfigurieren möchten.

    • Parameterbereich: Verwenden Sie diese Option, wenn Sie sich der besten Parameter nicht sicher sind und einen Parameter-Sweep verwenden möchten.

  5. Number of decision DAGs (Anzahl von Entscheidungs-DAGs): Geben Sie die maximale Anzahl von Diagrammen an, die im Ensemble erstellt werden können.

  6. Maximale Tiefe der Entscheidungs-DAGs: Geben Sie die maximale Tiefe jedes Diagramms an.

  7. Maximale Breite der Entscheidungs-DAGs: Geben Sie die maximale Breite jedes Diagramms an.

  8. Anzahl von Optimierungsschritten pro Entscheidungs-DAG-Ebene: Geben Sie an, wie viele Iterationen der Daten beim Erstellen der einzelnen DAGs durchgeführt werden sollen.

  9. Unbekannte Werte für kategorische Features zulassen: Wählen Sie diese Option aus, um eine Gruppe für unbekannte Werte in Test- oder Validierungsdaten zu erstellen. Das Modell ist bei bekannten Werten u. U. weniger genau, liefert dafür jedoch bessere Vorhersagen für neue (unbekannte) Werte.

    Wenn Sie diese Option deaktivieren, kann das Modell nur Werte akzeptieren, die in den Trainingsdaten vorhanden waren.

  10. Stellen Sie eine Verbindung mit einem bezeichneten Dataset und einem der Trainingsmodule her:

    • Wenn Sie Create trainer mode (Trainermodus erstellen) auf Single Parameter (Einzelner Parameter) festlegen, müssen Sie das Modul Train Model (Trainieren des Modells) verwenden.

    • Wenn Sie Create trainer mode (Trainermodus erstellen) auf Parameter Range (Parameterbereich) festlegen, verwenden Sie das Modul Tune Model Hyperparameters (Abstimmen der Hyperparameter des Modells). Mit dieser Option durch iteriert der Algorithmus mehrere Kombinationen der von Ihnen angegebenen Einstellungen und bestimmt die Kombination der Werte, die das beste Modell erzeugen.

    Hinweis

    Wenn Sie einen Parameterbereich an Train Model übergeben, wird nur der erste Wert in der Parameterbereichsliste verwendet.

    Wenn Sie eine einzelne Reihe bestimmter Parameterwerte an das Modul Tune Model Hyperparameters übergeben und ein Bereich von Einstellungen für jeden Parameter erwartet wird, werden die Werte ignoriert und stattdessen die Standardwerte für den Learner verwendet.

    Wenn Sie die Option Parameter Range (Parameterbereich) auswählen und einen einzelnen Wert für einen beliebigen Parameter eingeben, wird dieser angegebene einzelne Wert während des gesamten Löschvorgangs verwendet, auch wenn andere Parameter in einem Wertebereich geändert werden.

  11. Führen Sie das Experiment aus.

Ergebnisse

Nach Abschluss des Trainings:

  • Wenn Sie das Modell zur Bewertung verwenden möchten, verbinden Sie es mit Score Model (Modell bewerten), um Werte für neue Eingabebeispiele vorherzusagen.

Beispiele

Beispiele für die Verwendung von Entscheidungsstrukturen beim maschinellen Lernen finden Sie im Azure KI-Katalog:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Weitere Informationen zum Trainingsprozess mit der Option Replizieren finden Sie unter:

Verwendungstipps

Wenn Sie über begrenzte Daten verfügen oder die Zeit für das Training des Modells minimieren möchten, probieren Sie die folgenden Empfehlungen aus:

Eingeschränkter Trainingssatz

Wenn das Trainingsset eine begrenzte Anzahl von Instanzen enthält:

  • Erstellen Sie den Entscheidungsdschungel (decision jungle) mithilfe einer großen Anzahl von Entscheidungs-DAGs (z. B. mehr als 20).
  • Verwenden Sie die Option Bagging für die Neuberechnung.
  • Geben Sie eine große Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel mehr als 10.000).

Eingeschränkte Trainingszeit

Wenn das Trainingsset eine große Anzahl von Instanzen enthält und die Trainingszeit begrenzt ist:

  • Erstellen Sie die Entscheidungsentscheidung, die eine kleinere Anzahl von Entscheidungs-DAGs verwendet (z. B. 5-10).
  • Verwenden Sie die Option Replicate für die Neuberechnung.
  • Geben Sie eine kleinere Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel weniger als 2000).

Modulparameter

Name Range type Standard Beschreibung
Resampling method Any ResamplingMethod Bagging Auswählen einer Neuberechnungsmethode.
Number of decision DAGs >=1 Integer 8 Angeben der Anzahl von Entscheidungsgraphen, die im Ensemble erstellt werden können.
Maximum depth of the decision DAGs >=1 Integer 32 Angeben der maximalen Tiefe der im Ensemble zu erstellenden Entscheidungsgraphen.
Maximum width of the decision DAGs >=8 Integer 128 Angeben der maximalen Breite der im Ensemble zu erstellenden Entscheidungsgraphen.
Number of optimization steps per decision DAG layer >=1000 Integer 2048 Geben Sie die Anzahl der Schritte an, die für die Optimierung jeder Ebene der Entscheidungsgraphen verwendet werden sollen
Allow unknown values for categorical features Any Boolean True Angeben, ob unbekannte Werte von vorhandenen Kategoriemerkmalen einem neuen, zusätzlichen Merkmal zugeordnet werden können.

Ausgaben

Name Type BESCHREIBUNG
Untrainiertes Modell ILearner-Schnittstelle Ein untrainiertes mehrklassiges Klassifizierungsmodell

Siehe auch

Two-Class Decision Jungle
Klassifizierung
Modulliste von A bis Z