Two-Class Decision Jungle

Erstellt ein zweiklassiges Klassifizierungsmodell unter Verwendung des Entscheidungsdschungelalgorithmus

Kategorie: Machine Learning/Modell/Klassifizierung initialisieren

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Two-Class Decision Jungle -Modul in Azure Machine Learning Studio (klassisch) verwenden, um ein Machine Learning-Modell zu erstellen, das auf einem überwachten Ensemble-Lernalgorithmus namens "Decision Jungles" basiert.

Das Two-Class Decision Jungle- Modul gibt einen Untrainierten Klassifizierer zurück. Anschließend trainieren Sie dieses Modell mit einem beschrifteten Trainings Dataset, indem Sie " Train Model " oder " Tune Model hyperparameters" verwenden. Das trainierte Modell kann danach verwendet werden, um Vorhersagen zu treffen.

Weitere Informationen zu Decision Jungles

Decision Jungles sind eine aktuelle Erweiterung von EntscheidungsGesamtstrukturen. Ein Entscheidungsdschungel (decision jungle) besteht aus einem Ensemble von gerichteten azyklischen Entscheidungsgraphen (DDAGs).

Entscheidungsdschungel (decision jungle) haben die folgenden Vorteile:

  • Wenn Struktur Verzweigungen zusammengeführt werden können, hat eine Entscheidungs-DAG in der Regel einen geringeren Speicherbedarf und eine bessere Generalisierungs Leistung als eine Entscheidungsstruktur, auch wenn die Trainingszeit etwas länger dauert.

  • Entscheidungsdschungel (decision jungle) sind nicht parametrische Modelle, die nicht lineare Entscheidungsgrenzen darstellen können.

  • Sie führen integrierte Merkmalsauswahl und Klassifizierung durch und sind in Gegenwart verrauschter Merkmale robust.

Tipp

Weitere Informationen zu den Untersuchungen dieses Machine Learning-Algorithmus finden Sie unter Decision Jungles: Compact und Rich Models for classification (herunterladbare pdf-Datei).

Konfigurieren Two-Class Decision Jungle

  1. Fügen Sie Ihrem Experiment in Studio (klassisch) das Two-Class Decision Jungle -Modul hinzu.

  2. Wählen Sie für Resampling method (Methode für Wiederholungsprobennahme) die Methode aus, mit der die einzelnen Bäume erstellt wurden. Sie können zwischen Bagging und Replikation wählen.

    • Bagging: Wählen Sie diese Option aus, um bagging zu verwenden, auch als Bootstrap-Aggregator bezeichnet.

      Jede Struktur in einem Entscheidungs Dschungel gibt eine Gaußsche Verteilung als Vorhersage aus. Aufgabe der Aggregation ist es, eine Gauß-Verteilung zu finden, deren erste zwei Momente mit den Momenten der Mischung der Gauß-Verteilungen übereinstimmen, die sich durch Kombination aller von den einzelnen Bäumen zurückgegebenen Gauß-Verteilungen ergeben.

    • Replikation: Bei der Replikation wird jede Struktur mit genau denselben Eingabedaten trainiert. Die Bestimmung, welches Aufteilungsprädikat für jeden Baumknoten verwendet wird, bleibt zufällig, und die entstehenden Bäume unterscheiden sich.

      Weitere Informationen finden Sie unter Decision Forest for Maschinelles Sehen and Medical Image Analysis. Criminisi und J. Shotton. Springer 2013.

  3. Geben Sie an, wie das Modell trainiert werden soll, indem Sie die Option Create trainer mode (Trainermodus erstellen) aktivieren.

    • Single Parameter (Einzelner Parameter): Wenn Sie wissen, wie Sie das Modell konfigurieren möchten, können Sie einen bestimmten Satz von Werten als Argumente angeben.

    • Parameter Bereich: Wenn Sie sich nicht sicher sind, welche Parameter am besten geeignet sind, können Sie die optimalen Parameter ermitteln, indem Sie mehrere Werte angeben und das Modul " Tune Model hyperparameters " verwenden, um die optimale Konfiguration zu ermitteln. Der Trainer durchläuft mehrere Kombinationen der von Ihnen angegebenen Einstellungen und bestimmt die Kombination der Werte, die das beste Modell erzeugen.

  4. Geben Sie für Anzahl von Entscheidungs-DAGs die maximale Anzahl von Diagrammen an, die im Ensemble erstellt werden können.

  5. Geben Sie für die Maximale Tiefe der Entscheidungs-DAGs die maximale Tiefe jedes Diagramms an.

  6. Geben Sie für die Maximale Breite der Entscheidungs-DAGs die maximale Breite jedes Diagramms an.

  7. Geben Sie unter Anzahl von Optimierungsschritten pro Entscheidungs-DAG-Ebene an, wie viele Iterationen für die Daten beim Aufbau der einzelnen DAG durchgeführt werden sollen.

  8. Aktivieren Sie die Option unbekannte Werte für kategorische Features zulassen , um eine Gruppe für unbekannte Werte in Test-oder Validierungsdaten zu erstellen.

    Wenn Sie die Option deaktivieren, akzeptiert das Modell nur die Werte, die in den Trainingsdaten enthalten sind. Im ersten Fall ist das Modell für bekannte Werte möglicherweise weniger präzise, ermöglicht jedoch bessere Vorhersagen für neue (unbekannte) Werte.

  9. Fügen Sie dem Experiment ein mit Tags versehenes Dataset hinzu, und stellen Sie eine Verbindung mit einem der Trainingsmodule her.

    • Wenn Sie Create trainer mode (Trainermodus erstellen) auf Single Parameter (Einzelner Parameter) festlegen, müssen Sie das Modul Train Model (Trainieren des Modells) verwenden.

    • Wenn Sie Create trainer mode (Trainermodus erstellen) auf Parameter Range (Parameterbereich) festlegen, verwenden Sie das Modul Tune Model Hyperparameters (Abstimmen der Hyperparameter des Modells).

    Hinweis

    Wenn Sie einen Parameterbereich an Train Model übergeben, wird nur der erste Wert in der Parameterbereichsliste verwendet.

    Wenn Sie eine einzelne Reihe bestimmter Parameterwerte an das Modul Tune Model Hyperparameters übergeben und ein Bereich von Einstellungen für jeden Parameter erwartet wird, werden die Werte ignoriert und stattdessen die Standardwerte für den Learner verwendet.

    Wenn Sie die Option Parameter Range (Parameterbereich) auswählen und einen einzelnen Wert für einen beliebigen Parameter eingeben, wird dieser angegebene einzelne Wert während des gesamten Löschvorgangs verwendet, auch wenn andere Parameter in einem Wertebereich geändert werden.

Ergebnisse

Nach Abschluss des Trainings:

  • Wenn Sie das Modell zur Bewertung verwenden möchten, verbinden Sie es mit Score Model (Modell bewerten), um Werte für neue Eingabebeispiele vorherzusagen.

Beispiele

Beispiele für die Verwendung von Decision Jungles in Machine Learning finden Sie in den Azure AI Gallery:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Verwendungstipps

Wenn Sie nur über begrenzte Daten verfügen oder den Zeitaufwand für das Training des Modells minimieren möchten, versuchen Sie es mit diesen Einstellungen.

Eingeschränkter Trainings Satz

Wenn Ihr Trainings Satz klein ist:

  • Erstellen Sie den Entscheidungsdschungel mithilfe einer großen Anzahl von Entscheidungs-DAGs (z. B. mehr als 20).
  • Verwenden Sie die Option Bagging für die Neuberechnung.
  • Geben Sie eine große Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel mehr als 10.000).

Begrenzte Trainingszeit

Wenn der Trainings Satz groß ist, aber die Trainingszeit begrenzt ist:

  • Erstellen Sie den Entscheidungsdschungel (decision jungle) mithilfe von wenigen Entscheidungs-DAGs (beispielsweise 5 bis 10).
  • Verwenden Sie die Option Replicate für die Neuberechnung.
  • Geben Sie eine kleinere Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel weniger als 2000).

Modulparameter

Name Range type Standard BESCHREIBUNG
Resampling method Any ResamplingMethod Bagging Auswählen einer Neuberechnungsmethode.
Number of decision DAGs >=1 Integer 8 Angeben der im Ensemble zu erstellenden Anzahl von Entscheidungsgraphen.
Maximum depth of the decision DAGs >=1 Integer 32 Angeben der maximalen Tiefe der Entscheidungsgraphen im Ensemble.
Maximum width of the decision DAGs >= 8 Integer 128 Angeben der maximalen Breite der Entscheidungsgraphen im Ensemble.
Number of optimization steps per decision DAG layer >= 1000 Integer 2048 Geben Sie die Anzahl der Schritte an, die für die Optimierung jeder Ebene der Entscheidungsgraphen verwendet werden sollen
Allow unknown values for categorical features Any Boolean True Angeben, ob unbekannte Werte von vorhandenen Kategoriemerkmalen einem neuen, zusätzlichen Merkmal zugeordnet werden können.

Output

Name type BESCHREIBUNG
Untrainiertes Modell ILearner-Schnittstelle Ein untrainiertes binäres Klassifizierungsmodell

Siehe auch

Ordnung
Mehr klassiger Entscheidungs Dschungel
Modulliste von A bis Z