Two-Class beslissing jungle

Hiermee wordt een classificatie model met twee klassen gemaakt met behulp van de beslissing jungle-algoritme

Categorie: model/classificatie machine learning/initialiseren

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de beslissings module met twee klassen in azure machine learning Studio (klassiek) kunt gebruiken om een machine learning model te maken dat is gebaseerd op een leer algoritme met de naam decision jungle.

De beslissings module met twee klassen retourneert een niet-getrainde classificatie. Vervolgens traint u dit model op een gelabelde trainings gegevensverzameling met behulp van Train model of Tune model Hyper parameters. Het getrainde model kan vervolgens worden gebruikt voor het maken van voor spellingen.

Meer informatie over beslissings jungle

Beslissings jungle zijn een recente uitbrei ding van de beslissings forests. Een beslissing jungle bestaat uit een ensemble van door de beslissing gerichte acyclische grafiek (Dag's).

Beslissings jungle hebben de volgende voor delen:

  • Door structuur vertakkingen te kunnen samen voegen, heeft een beslissings DAG doorgaans een lagere geheugen capaciteit en betere generalisatie prestaties dan een beslissings structuur, en dat wil zeggen dat de kosten langer duren.

  • Beslissings jungle zijn niet-parametrische modellen die niet-lineaire beslissings grenzen kunnen vertegenwoordigen.

  • Ze hebben de mogelijkheid om geïntegreerde functies te selecteren en te classificeren.

Tip

Zie voor meer informatie over het onderzoek achter deze machine learning-algoritme beslissing Jungle: compacte en rijke modellen voor classificatie (Download bare PDF).

Two-Class decision jungle configureren

  1. Voeg de beslissings module met twee klassen toe aan uw experiment in Studio (klassiek).

  2. Kies voor resampling methodede methode die is gebruikt voor het maken van de afzonderlijke structuren. U kunt kiezen uit een of meer van de replicatie.

    • Invoegen : Selecteerdeze optie om te gebruiken, ook wel Boots trap aggregatie genoemd.

      Elke boom structuur in een beslissing jungle levert een Gaussiaans distributie als voor spelling. De aggregatie is het vinden van een Gaussiaans waarvan de eerste twee seconden overeenkomen met de momenten van het combi natie van Gaussiaans, opgegeven door het combi neren van alle Gaussiaans die door afzonderlijke structuren worden geretourneerd.

    • Repliceren: in replicatie wordt elke structuur getraind op exact dezelfde invoer gegevens. De bepaling waarvan het gesplitste predicaat voor elk structuur knooppunt wordt gebruikt, blijft wille keurig en de structuur is divers.

      Zie voor meer informatie beslissings bossen voor computer vision en medische afbeeldings analyse. Criminisi en J. Shotton. Springer 2013.

  3. Geef op hoe u wilt dat het model wordt getraind door de optie trainer modus maken in te stellen.

    • Eén para meter: als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden als argumenten opgeven.

    • Parameter bereik: als u niet zeker weet wat de beste para meters zijn, kunt u de optimale para meters vinden door meerdere waarden op te geven en de module model Hyper parameters te gebruiken om de optimale configuratie te vinden. De cursus leider herhaalt meerdere combi Naties van de instellingen die u hebt ingevoerd en bepaalt de combi natie van waarden die het beste model produceert.

  4. Voor het aantal beslissings dag'sgeeft u het maximum aantal grafieken op dat in de ensemble kan worden gemaakt.

  5. Voor maximale diepte van de beslissings dag'sgeeft u de maximale diepte van elke grafiek aan.

  6. Voor maximale breedte van de beslissings dag'sgeeft u de maximale breedte van elke grafiek aan.

  7. Geef in aantal optimalisatie stappen per beslissings-dag-laagop hoeveel iteraties de gegevens voor het maken van elke dag moeten worden uitgevoerd.

  8. Selecteer de optie onbekende waarden toestaan voor categorische functies om een groep te maken voor onbekende waarden bij het testen of valideren van validatie gegevens.

    Als u deze optie uitschakelt, kan het model alleen de waarden accepteren die deel uitmaken van de trainings gegevens. In het eerste geval is het model mogelijk minder nauw keurig voor bekende waarden, maar dit kan betere voor spellingen bieden voor nieuwe (onbekende) waarden.

  9. Voeg een gecodeerde gegevensset toe aan het experiment en Verbind een van de trainings modules.

    • Als u de modus trainer maken instelt op één para meter, gebruikt u de module Train model .

    • Als u de modus trainer maken instelt op het parameter bereik, gebruikt u de Hyper parameters-module voor het afstemmen van modellen .

    Notitie

    Als u een parameter bereik doorgeeft aan een Train-model, wordt alleen de eerste waarde in de lijst met para meters gebruikt.

    Als u één set parameter waarden doorgeeft aan de Hyper parameters-module voor het Tune-model , worden de waarden genegeerd en worden de standaard waarden gebruikt voor de cursist als er een reeks instellingen voor elke para meter wordt verwacht.

    Als u de optie voor het parameter bereik selecteert en één waarde voor een para meter opgeeft, wordt die enkele waarde die u hebt opgegeven overal in de sweep gebruikt, zelfs als andere para meters worden gewijzigd in een reeks waarden.

Resultaten

Nadat de training is voltooid:

  • Klik met de rechter muisknop op de uitvoer van de module Train model (of de module model Hyper parameters ) en selecteer visualiserenom de structuur te zien die op elke iteratie is gemaakt.

  • Als u de regels voor elk knoop punt wilt bekijken, klikt u op elke structuur en zoomt u in op de splitsingen.

  • Als u een moment opname van het getrainde model wilt opslaan, klikt u met de rechter muisknop op de getrainde model uitvoer en selecteert u Opslaan als opgeleid model. Dit model wordt niet bijgewerkt op opeenvolgende uitvoeringen van hetzelfde experiment.

  • Als u kruis validatie wilt uitvoeren op een gegevensgestuurde gegevensset, verbindt u het niet-trainde model om het model te valideren.

Voorbeelden

Voor voor beelden van de manier waarop beslissings jungle in machine learning worden gebruikt, raadpleegt u de Azure AI Gallery:

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Gebruiks tips

Als u beperkte gegevens hebt of de tijd die nodig is voor het trainen van het model wilt minimaliseren, kunt u deze instellingen proberen.

Beperkte Trainingsset

Als uw Trainingsset klein is:

  • De beslissings jungle maken met behulp van een groot aantal beslissings Dag's (bijvoorbeeld meer dan 20).
  • Gebruik de optie voor het overschakelen voor resampling.
  • Geef een groot aantal optimalisatie stappen op per DAG laag (bijvoorbeeld meer dan 10.000).

Beperkte trainings tijd

Als de Trainingsset groot is maar de training tijd beperkt is:

  • De beslissings jungle maken met behulp van een kleiner aantal beslissings Dag's (bijvoorbeeld 5-10).
  • Gebruik de optie repliceren voor resampling.
  • Geef een kleiner aantal optimalisatie stappen op per DAG laag (bijvoorbeeld kleiner dan 2000).

Module parameters

Naam Bereik Type Standaard Beschrijving
Resampling methode Alle ResamplingMethod Overbaggen Een resampling methode kiezen
Aantal besluit Dag's >= 1 Geheel getal 8 Het aantal besluitvormings grafieken opgeven dat in de ensemble moet worden gemaakt
Maximale diepte van de beslissings Dag's >= 1 Geheel getal 32 De maximale diepte van de beslissings grafieken in de ensemble opgeven
Maximale breedte van de beslissings Dag's >= 8 Geheel getal 128 De maximale breedte van de beslissings grafieken in de ensemble opgeven
Aantal optimalisatie stappen per decision DAG-laag >= 1000 Geheel getal 2048 Geef het aantal stappen op dat moet worden gebruikt voor het optimaliseren van elk niveau van de beslissings grafieken
Onbekende waarden toestaan voor categorische-functies Alle Boolean-waarde True Geef aan of onbekende waarden van bestaande categorische-functies kunnen worden toegewezen aan een nieuwe, extra functie

Uitvoer

Naam Type Beschrijving
Niet-traind model ILearner-interface Een niet-getraind binair classificatie model

Zie ook

Ontbreekt
Multi klasse-beslissings jungle
Module lijst a-Z