Onderdeel Versterkte beslissingsstructuurregressie

Artikel
06/01/2023

In dit artikel wordt een onderdeel in azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een ensemble van regressiestructuren te maken met behulp van boost. Stimuleren betekent dat elke boom afhankelijk is van eerdere structuren. Het algoritme leert door het residu van de voorafgaande bomen te passen. Het stimuleren van een beslissingsstructuurensemble verbetert de nauwkeurigheid met een klein risico op minder dekking.

Dit onderdeel is gebaseerd op het LightGBM-algoritme.

Deze regressiemethode is een leermethode onder supervisie en vereist daarom een gelabelde gegevensset. De labelkolom moet numerieke waarden bevatten.

Notitie

Gebruik dit onderdeel alleen met gegevenssets die gebruikmaken van numerieke variabelen.

Nadat u het model hebt gedefinieerd, traint u het met behulp van het train model.

Meer informatie over versterkte regressiestructuren

Stimuleren is een van de verschillende klassieke methoden voor het maken van ensemblemodellen, samen met bagging, willekeurige forests, enzovoort. In Azure Machine Learning maken versterkte beslissingsstructuren gebruik van een efficiënte implementatie van het algoritme mart-gradiëntverbetering. Kleurovergangsverbetering is een machine learning-techniek voor regressieproblemen. Elke regressiestructuur wordt stapsgewijs gebouwd met behulp van een vooraf gedefinieerde verliesfunctie om de fout in elke stap te meten en in de volgende stap te corrigeren. Het voorspellingsmodel is dus eigenlijk een geheel van zwakkere voorspellingsmodellen.

Bij regressieproblemen bouwt het stimuleren stapsgewijs een reeks structuren en selecteert vervolgens de optimale structuur met behulp van een willekeurige functie voor differentieerbaar verlies.

Zie de volgende artikelen voor meer informatie:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Dit Wikipedia-artikel over kleurovergangsverbetering biedt achtergrondinformatie over versterkte bomen.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: Van RankNet naar LambdaRank naar LambdaMART: een overzicht. Door J.C. Burges.

De methode voor kleurovergangsverbetering kan ook worden gebruikt voor classificatieproblemen door ze te verminderen tot regressie met een geschikte verliesfunctie. Zie Two-Class Boosted Decision Tree voor meer informatie over de implementatie van versterkte structuren voor classificatietaken.

Versterkte beslissingsstructuurregressie configureren

Voeg het onderdeel Boosted Decision Tree toe aan uw pijplijn. U vindt dit onderdeel onder Machine Learning, Initialiseren, onder de categorie Regressie .
Geef op hoe u het model wilt trainen door de optie Trainermodus maken in te stellen.
- Enkele parameter: selecteer deze optie als u weet hoe u het model wilt configureren en een specifieke set waarden als argumenten wilt opgeven.
- Parameterbereik: selecteer deze optie als u niet zeker bent van de beste parameters en een parameter-sweep wilt uitvoeren. Selecteer een waardenbereik dat u wilt herhalen en de Hyperparameters van model afstemmen herhaalt alle mogelijke combinaties van de instellingen die u hebt opgegeven om de hyperparameters te bepalen die de optimale resultaten produceren.
Maximum aantal bladeren per boomstructuur: hiermee geeft u het maximum aantal terminale knooppunten (bladeren) aan dat in een boomstructuur kan worden gemaakt.

Door deze waarde te verhogen, vergroot u mogelijk de grootte van de boomstructuur en krijgt u meer precisie, met het risico op overfitting en langere trainingstijd.
Minimaal aantal steekproeven per bladknooppunt: geef het minimale aantal cases op dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken.

Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Met de standaardwaarde 1 kan zelfs één case ervoor zorgen dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt naar 5, moeten de trainingsgegevens ten minste 5 cases bevatten die aan dezelfde voorwaarden voldoen.
Leersnelheid: typ een getal tussen 0 en 1 dat de stapgrootte definieert tijdens het leren. De leersnelheid bepaalt hoe snel of traag de cursist convergeert op de optimale oplossing. Als de stap te groot is, kunt u de optimale oplossing overslaan. Als de stap te klein is, duurt het langer om de training te convergeren op de beste oplossing.
Aantal samengestelde bomen: geef het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te maken, kunt u mogelijk een betere dekking krijgen, maar de trainingstijd neemt toe.

Als u de waarde instelt op 1; er wordt echter slechts één structuur geproduceerd (de structuur met de eerste set parameters) en er worden geen verdere iteraties uitgevoerd.
Seed voor willekeurige getallen: typ een optioneel niet-negatief geheel getal dat moet worden gebruikt als de willekeurige seed-waarde. Als u een seed opgeeft, zorgt u voor reproduceerbaarheid tussen uitvoeringen met dezelfde gegevens en parameters.

Standaard is de willekeurige seed ingesteld op 0, wat betekent dat de initiële seed-waarde wordt verkregen van de systeemklok.
Het model trainen:
- Als u de modus Trainer maken instelt op Enkele parameter, verbindt u een getagde gegevensset en het onderdeel Train Model .
- Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Hyperparameters afstemmen.
Notitie

Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met parameters gebruikt.

Als u één set parameterwaarden doorgeeft aan het onderdeel Model hyperparameters afstemmen en er een reeks instellingen voor elke parameter wordt verwacht, worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt.

Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven, gebruikt tijdens de sweep, zelfs als andere parameters in een bereik van waarden veranderen.
Verzend de pijplijn.

Resultaten

Nadat de training is voltooid:

Als u het model wilt gebruiken voor scoren, verbindt u Model trainen met scoremodel om waarden voor nieuwe invoervoorbeelden te voorspellen.
Als u een momentopname van het getrainde model wilt opslaan, selecteert u het tabblad Uitvoer in het rechterdeelvenster van Getraind model en klikt u op het pictogram Gegevensset registreren . De kopie van het getrainde model wordt opgeslagen als onderdeel in de onderdelenstructuur en wordt niet bijgewerkt bij opeenvolgende uitvoeringen van de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.

Onderdeel Versterkte beslissingsstructuurregressie

Meer informatie over versterkte regressiestructuren

Versterkte beslissingsstructuurregressie configureren

Resultaten

Volgende stappen

Aanvullende resources