Two-Class Decision Jungle

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erstellt ein zweiklassiges Klassifizierungsmodell unter Verwendung des Entscheidungsdschungelalgorithmus

Kategorie: Machine Learning/Modell initialisieren/Klassifizierung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Two-Class Decision Modules in Machine Learning Studio (klassisch) verwenden, um ein Machine Learning-Modell zu erstellen, das auf einem überwachten Ensemblelernalgorithmus basiert, der als Entscheidungsverlierer bezeichnet wird.

Das Modul Two-Class Decision Modules gibt einen untrainierten Klassifizierer zurück. Anschließend trainieren Sie dieses Modell mit einem bezeichneten Trainingsdatensatz, indem Sie Train Model oder Tune Model Hyperparameters verwenden. Das trainierte Modell kann danach verwendet werden, um Vorhersagen zu treffen.

Weitere Informationen zu Entscheidungsentscheidungen

Entscheidungsforsten sind eine kürzliche Erweiterung der Entscheidungswaldstrukturen. Ein Entscheidungsdschungel (decision jungle) besteht aus einem Ensemble von gerichteten azyklischen Entscheidungsgraphen (DDAGs).

Entscheidungsdschungel (decision jungle) haben die folgenden Vorteile:

Durch das Zusammenführen von Strukturbranches weist eine Entscheidungs-DAG in der Regel einen geringeren Speicherbedarf und eine bessere Verallgemeinerungsleistung auf als eine Entscheidungsstruktur, obwohl die Trainingszeit etwas länger ist.
Entscheidungsdschungel (decision jungle) sind nicht parametrische Modelle, die nicht lineare Entscheidungsgrenzen darstellen können.
Sie führen integrierte Merkmalsauswahl und Klassifizierung durch und sind in Gegenwart verrauschter Merkmale robust.

Tipp

Weitere Informationen zu den Untersuchungen hinter diesem Machine Learning-Algorithmus finden Sie unter Decision Algorithms: Compact and Rich Models for Classification (Entscheidungsschlangen: Kompakte und umfangreiche Modelle für die Klassifizierung ) (herunterladbare PDF-Datei).

Konfigurieren von Two-Class Decision Decision Decision

Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Two-Class Decision Modules hinzu.
Wählen Sie für Resampling method (Methode für Wiederholungsprobennahme) die Methode aus, mit der die einzelnen Bäume erstellt wurden. Sie können zwischen Bagging und Replikation wählen.
- Bagging: Wählen Sie diese Option aus, um Bagging zu verwenden, auch als Bootstrapaggregation bezeichnet.
  
  Jeder Baum in einem Entscheidungswald gibt eine Gaußsche Verteilung als Vorhersage aus. Aufgabe der Aggregation ist es, eine Gauß-Verteilung zu finden, deren erste zwei Momente mit den Momenten der Mischung der Gauß-Verteilungen übereinstimmen, die sich durch Kombination aller von den einzelnen Bäumen zurückgegebenen Gauß-Verteilungen ergeben.
- Replikation: Bei der Replikation wird jede Struktur mit genau denselben Eingabedaten trainiert. Die Bestimmung, welches Aufteilungsprädikat für jeden Baumknoten verwendet wird, bleibt zufällig, und die entstehenden Bäume unterscheiden sich.
  
  Weitere Informationen finden Sie unter Entscheidungswald für maschinelles Sehen und Analyse medizinischer Bilder. Criminisi und J. Shotton. Springer 2013.
Geben Sie an, wie das Modell trainiert werden soll, indem Sie die Option Create trainer mode (Trainermodus erstellen) aktivieren.
- Single Parameter (Einzelner Parameter): Wenn Sie wissen, wie Sie das Modell konfigurieren möchten, können Sie einen bestimmten Satz von Werten als Argumente angeben.
- Parameterbereich: Wenn Sie sich der besten Parameter nicht sicher sind, können Sie die optimalen Parameter ermitteln, indem Sie mehrere Werte angeben und das Modul Tune Model Hyperparameters verwenden, um die optimale Konfiguration zu finden. Der Trainer durchgeht mehrere Kombinationen der von Ihnen angegebenen Einstellungen und bestimmt die Kombination der Werte, die das beste Modell erzeugt.
Geben Sie unter Number of decision DAGs (Anzahl von Entscheidungs-DAGs) die maximale Anzahl von Diagrammen an, die im Ensemble erstellt werden können.
Geben Sie unter Maximale Tiefe der Entscheidungs-DAGs die maximale Tiefe jedes Diagramms an.
Geben Sie unter Maximale Breite der Entscheidungs-DAGs die maximale Breite jedes Diagramms an.
Geben Sie unter Anzahl der Optimierungsschritte pro Entscheidungs-DAG-Ebene an, wie viele Iterationen der Daten beim Erstellen der einzelnen DAGs ausgeführt werden sollen.
Wählen Sie die Option Unbekannte Werte für kategorische Features zulassen aus, um eine Gruppe für unbekannte Werte in Test- oder Validierungsdaten zu erstellen.

Wenn Sie die Option deaktivieren, akzeptiert das Modell nur die Werte, die in den Trainingsdaten enthalten sind. Im ersten Fall ist das Modell für bekannte Werte möglicherweise weniger präzise, ermöglicht jedoch bessere Vorhersagen für neue (unbekannte) Werte.
Fügen Sie dem Experiment ein mit Tags versehenes Dataset hinzu, und stellen Sie eine Verbindung mit einem der Trainingsmodule her.
- Wenn Sie Create trainer mode (Trainermodus erstellen) auf Single Parameter (Einzelner Parameter) festlegen, müssen Sie das Modul Train Model (Trainieren des Modells) verwenden.
- Wenn Sie Create trainer mode (Trainermodus erstellen) auf Parameter Range (Parameterbereich) festlegen, verwenden Sie das Modul Tune Model Hyperparameters (Abstimmen der Hyperparameter des Modells).
Hinweis

Wenn Sie einen Parameterbereich an Train Model übergeben, wird nur der erste Wert in der Parameterbereichsliste verwendet.

Wenn Sie eine einzelne Reihe bestimmter Parameterwerte an das Modul Tune Model Hyperparameters übergeben und ein Bereich von Einstellungen für jeden Parameter erwartet wird, werden die Werte ignoriert und stattdessen die Standardwerte für den Learner verwendet.

Wenn Sie die Option Parameter Range (Parameterbereich) auswählen und einen einzelnen Wert für einen beliebigen Parameter eingeben, wird dieser angegebene einzelne Wert während des gesamten Löschvorgangs verwendet, auch wenn andere Parameter in einem Wertebereich geändert werden.

Ergebnisse

Nach Abschluss des Trainings:

Wenn Sie das Modell zur Bewertung verwenden möchten, verbinden Sie es mit Score Model (Modell bewerten), um Werte für neue Eingabebeispiele vorherzusagen.

Beispiele

Beispiele für die Verwendung von Entscheidungsgründen beim maschinellen Lernen finden Sie im Azure KI-Katalog:

Vergleichen von binären Klassifizierern: Verwendet mehrere Algorithmen und erläutert deren Vor- und Nachteile.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Verwendungstipps

Wenn Sie über begrenzte Daten verfügen oder die Zeit für das Training des Modells minimieren möchten, versuchen Sie es mit diesen Einstellungen.

Eingeschränkter Trainingssatz

Wenn Ihr Trainingssatz klein ist:

Erstellen Sie den Entscheidungsdschungel mithilfe einer großen Anzahl von Entscheidungs-DAGs (z. B. mehr als 20).
Verwenden Sie die Option Bagging für die Neuberechnung.
Geben Sie eine große Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel mehr als 10.000).

Begrenzte Trainingszeit

Wenn der Trainingssatz groß ist, die Trainingszeit jedoch begrenzt ist:

Erstellen Sie den Entscheidungsdschungel (decision jungle) mithilfe von wenigen Entscheidungs-DAGs (beispielsweise 5 bis 10).
Verwenden Sie die Option Replicate für die Neuberechnung.
Geben Sie eine kleinere Anzahl von Optimierungsschritten pro DAG-Schicht an (zum Beispiel weniger als 2000).

Modulparameter

Name	Range	type	Standard	Beschreibung
Resampling method	Any	ResamplingMethod	Bagging	Auswählen einer Neuberechnungsmethode.
Number of decision DAGs	>=1	Integer	8	Angeben der im Ensemble zu erstellenden Anzahl von Entscheidungsgraphen.
Maximum depth of the decision DAGs	>=1	Integer	32	Angeben der maximalen Tiefe der Entscheidungsgraphen im Ensemble.
Maximum width of the decision DAGs	>=8	Integer	128	Angeben der maximalen Breite der Entscheidungsgraphen im Ensemble.
Number of optimization steps per decision DAG layer	>=1000	Integer	2048	Geben Sie die Anzahl der Schritte an, die für die Optimierung jeder Ebene der Entscheidungsgraphen verwendet werden sollen
Allow unknown values for categorical features	Any	Boolean	True	Angeben, ob unbekannte Werte von vorhandenen Kategoriemerkmalen einem neuen, zusätzlichen Merkmal zugeordnet werden können.

Output

Name	Type	BESCHREIBUNG
Untrainiertes Modell	ILearner-Schnittstelle	Ein untrainiertes binäres Klassifizierungsmodell

Siehe auch

Klassifizierung
Mehrklassiger Entscheidungsdschungel
Modulliste von A bis Z