Regressie beslissingsforest

Hiermee maakt u een regressie model met het algoritme van het beslissings forest

Categorie: model regressie initialiseren

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de herregressie-module voor beslissings structuur in azure machine learning Studio (klassiek) kunt gebruiken om een regressie model te maken op basis van een ensemble van beslissings structuren.

Nadat u het model hebt geconfigureerd, moet u het model trainen met een gegevensset met een label en de module Train model . Het getrainde model kan vervolgens worden gebruikt voor het maken van voor spellingen. Het niet-trained model kan ook worden door gegeven aan kruislings valideren model voor kruis validatie op basis van een gegevensset met een label.

Hoe beslissings forests werken in regressie taken

Beslissings structuren zijn niet-parametrische modellen die een reeks eenvoudige tests voor elk exemplaar uitvoeren, waarbij een gegevens structuur van een binaire structuur wordt doorzocht totdat een Leaf-knoop punt (beslissing) is bereikt.

Beslissings structuren hebben de volgende voor delen:

  • Ze zijn efficiënt in berekeningen en geheugen gebruik tijdens de training en voor spellingen.

  • Ze kunnen niet-lineaire beslissings grenzen vertegenwoordigen.

  • Ze hebben de mogelijkheid om geïntegreerde functies te selecteren en te classificeren.

Dit regressie model bestaat uit een ensemble van beslissings structuren. Elke structuur in een regressie-beslissings forest voert een Gaussiaanse distributie uit als een voor spelling. Er wordt een aggregatie uitgevoerd over de ensemble van structuren om een Gaussiaanse distributie te vinden die het dichtst bij de gecombineerde distributie ligt voor alle structuren in het model.

Raadpleeg dit artikel voor meer informatie over het theoretische Framework voor deze algoritme en de implementatie ervan: beslissings bossen: een uniform Framework voor classificatie, regressie, dichtheids schatting, verzamel leer en Semi-Supervised Learning

Het regressie model voor beslissings structuur configureren

  1. Voeg de regressie-module van de beslissings structuur toe aan het experiment. U kunt de module in Studio (klassiek) vinden onder machine learning, model initialiserenen regressie.

  2. Open de module-eigenschappen en kies voor resampling methodede methode die wordt gebruikt om de afzonderlijke structuren te maken. U kunt kiezen uit een of meer van de replicatie.

    • Overbaggen: de functie voor het verzamelen van de Boots trap Elke structuur in een regressie-beslissings forest voert een Gaussiaanse distributie uit door middel van voor spellingen. De aggregatie is het vinden van een Gaussiaans waarvan de eerste twee seconden overeenkomen met de momenten van het combi natie van Gaussiaans, opgegeven door het combi neren van alle Gaussiaans die door afzonderlijke structuren worden geretourneerd.

      Zie de Wikipedia-vermelding voor Boots trap aggregatievoor meer informatie.

    • Repliceren: in replicatie wordt elke structuur getraind op exact dezelfde invoer gegevens. De bepaling waarvan het gesplitste predicaat voor elk structuur knooppunt wordt gebruikt, blijft wille keurig en de structuur is divers.

      Voor meer informatie over het trainings proces met de optie repliceren raadpleegt u besluitvormings forests voor computer vision en medische afbeeldings analyse. Criminisi en J. Shotton. Springer 2013..

  3. Geef op hoe u wilt dat het model wordt getraind door de optie trainer modus maken in te stellen.

    • Eén para meter

      Als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden als argumenten opgeven. U hebt deze waarden mogelijk geleerd door te experimenteren of ze als richt lijn te ontvangen.

    • Parameter bereik

      Als u niet zeker weet wat de beste para meters zijn, kunt u de optimale para meters vinden door meerdere waarden op te geven en een parameter opruiming te gebruiken om de optimale configuratie te vinden.

      Het afstemmen van het model Hyper parameters gaat over alle mogelijke combi Naties van de instellingen die u hebt ingevoerd en bepaalt de combi natie van instellingen die de optimale resultaten oplevert.

  4. Geef voor aantal beslissings structurenhet totale aantal beslissings structuren op dat in de ensemble moet worden gemaakt. Door meer beslissings structuren te maken, kunt u een betere dekking krijgen, maar wordt de trainings tijd verhoogd.

    Tip

    Deze waarde bepaalt ook het aantal structuren dat wordt weer gegeven wanneer het getrainde model wordt gevisualiseerd. Als u één boom structuur wilt zien of afdrukken, kunt u de waarde instellen op 1. Dit betekent echter dat er slechts één structuur wordt geproduceerd (de structuur met de initiële set para meters) en er geen verdere herhalingen worden uitgevoerd.

  5. Voor de maximale diepte van de beslissings structurentypt u een getal om de maximale diepte van een beslissings structuur te beperken. Het verg Roten van de diepte van de structuur kan nauw keuriger zijn, met het risico van een aantal verdeelde en verhoogde opleidings tijd.

  6. Voor het aantal wille keurige splitsingen per knoop punttypt u het aantal splitsingen dat moet worden gebruikt bij het maken van elk knoop punt van de structuur. Een splitsing houdt in dat onderdelen in elk niveau van de structuur (knoop punt) wille keurig worden gedeeld.

  7. Geef voor het minimum aantal steek proeven per blad knooppunthet minimale aantal cases op dat nodig is om een Terminal knooppunt (Leaf) in een structuur te maken.

    Door deze waarde te verhogen, verhoogt u de drempel voor het maken van nieuwe regels. Met de standaard waarde 1 kan zelfs een enkele case ertoe leiden dat een nieuwe regel wordt gemaakt. Als u de waarde op 5 verhoogt, moeten de opleidings gegevens ten minste 5 gevallen bevatten die aan dezelfde voor waarden voldoen.

  8. Selecteer de optie onbekende waarden toestaan voor categorische functies om een groep te maken voor onbekende waarden in de trainings-of validatie sets.

    Als u deze optie uitschakelt, kan het model alleen de waarden accepteren die deel uitmaken van de trainings gegevens. In het eerste geval is het model mogelijk minder nauw keurig voor bekende waarden, maar dit kan betere voor spellingen bieden voor nieuwe (onbekende) waarden.

  9. Verbind een gegevensset met een label, selecteer een kolom met één label die niet meer dan twee uitkomsten bevat en maak een verbinding met een van beide trein modellen of stem model Hyper parameters.

    • Als u de optie trainer maken instelt op één para meter, traint u het model met behulp van de module Train model .

    • Als u de optie trainer maken hebt ingesteld op het parameter bereik, traint u het model met behulp van Hyper parameters model.

  10. Voer het experiment uit.

Resultaten

Nadat de training is voltooid:

  • Als u de structuur wilt zien die op elke iteratie is gemaakt, klikt u met de rechter muisknop op de uitvoer van de trainings module en selecteert u visualiseren.

  • Als u de regels voor elk knoop punt wilt bekijken, klikt u op elke structuur en zoomt u in op de splitsingen.

  • Als u een moment opname van het getrainde model wilt opslaan, klikt u met de rechter muisknop op de uitvoer van de trainings module en selecteert u Opslaan als getraind model. Deze kopie van het model wordt niet bijgewerkt bij opeenvolgende uitvoeringen van het experiment.

Voorbeelden

Voor voor beelden van regressie modellen raadpleegt u deze voorbeeld experimenten in de Cortana Intelligence Gallery:

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

  • Als u het bereik van de para meter doorgeeft aan Train model, wordt alleen de eerste waarde in de lijst met para meters gebruikt.

  • Als u één set parameter waarden doorgeeft aan de Hyper parameters-module voor het Tune-model , worden de waarden genegeerd en worden de standaard waarden gebruikt voor de cursist als er een reeks instellingen voor elke para meter wordt verwacht.

  • Als u de optie voor het parameter bereik selecteert en één waarde voor een para meter opgeeft, wordt die enkele waarde die u hebt opgegeven gebruikt gedurende de sweep, zelfs als andere para meters worden gewijzigd in een bereik van waarden.

Gebruiks tips

Als u beperkte gegevens hebt of de tijd die nodig is voor het trainen van het model wilt minimaliseren, kunt u de volgende instellingen proberen:

Beperkte Trainingsset. Als de Trainingsset een beperkt aantal exemplaren bevat:

  • Maak het besluit forest met behulp van een groot aantal beslissings structuren (bijvoorbeeld meer dan 20)

  • Gebruik de optie voor het overschakelen van een resampling

  • Geef een groot aantal wille keurige splitsingen per knoop punt op (bijvoorbeeld meer dan 1000)

Beperkte trainings tijd. Als de Trainingsset een groot aantal exemplaren bevat en de trainings tijd is beperkt:

  • Het beslissings forest maken met minder beslissings structuren (bijvoorbeeld 5-10)

  • De optie repliceren gebruiken voor resampling

  • Geef een klein aantal wille keurige splitsingen per knoop punt op (bijvoorbeeld kleiner dan 100)

Module parameters

Naam Bereik Type Standaard Beschrijving
Resampling methode alle ResamplingMethod Overbaggen Een resampling methode kiezen
Aantal beslissings structuren >= 1 Geheel getal 8 Geef het aantal beslissings structuren op dat in de ensemble moet worden gemaakt
Maximale diepte van de beslissings structuren >= 1 Geheel getal 32 De maximale diepte opgeven van een beslissings structuur die in de ensemble kan worden gemaakt
Aantal wille keurige splitsingen per knoop punt >= 1 Geheel getal 128 Geef het aantal gesplitste splitsingen per knoop punt op waaruit de optimale splitsing is geselecteerd
Minimum aantal steek proeven per Leaf-knoop punt >= 1 Geheel getal 1 Geef het minimum aantal trainings voorbeelden op dat nodig is voor het genereren van een Leaf-knoop punt
Onbekende waarden toestaan voor categorische-functies alle Boolean-waarde true Geef aan of onbekende waarden van bestaande categorische-functies kunnen worden toegewezen aan een nieuwe, extra functie

Outputs

Naam Type Beschrijving
Niet-traind model ILearner-interface Een niet-uitgetraind regressie model

Zie ook

Regressie

Module lijst a-Z