Two-Class onderdeel Versterkte beslissingsstructuur

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik dit onderdeel om een machine learning-model te maken dat is gebaseerd op het algoritme voor versterkte beslissingsstructuren.

Een versterkte beslissingsstructuur is een ensembleleermethode waarbij de tweede boom de fouten van de eerste boom corrigeert, de derde boom de fouten van de eerste en tweede boom corrigeert, enzovoort. Voorspellingen zijn gebaseerd op het hele ensemble van bomen samen dat de voorspelling doet.

Over het algemeen zijn versterkte beslissingsstructuren, wanneer ze correct zijn geconfigureerd, de eenvoudigste methoden om de beste prestaties te bekomen voor een groot aantal machine learning-taken. Ze zijn echter ook een van de meer geheugenintensieve cursisten en de huidige implementatie houdt alles in het geheugen. Daarom kan een versterkt beslissingsstructuurmodel mogelijk niet de grote gegevenssets verwerken die sommige lineaire cursisten kunnen verwerken.

Dit onderdeel is gebaseerd op het LightGBM-algoritme.

Configureren

Met dit onderdeel wordt een niet-getraind classificatiemodel gemaakt. Omdat classificatie een leermethode onder supervisie is, hebt u een getagde gegevensset nodig met een labelkolom met een waarde voor alle rijen om het model te trainen.

U kunt dit type model trainen met Behulp van Model trainen.

  1. Voeg in Azure Machine Learning het onderdeel Boosted Decision Tree toe aan uw pijplijn.

  2. Geef op hoe u het model wilt trainen door de optie Trainermodus maken in te stellen.

    • Enkele parameter: als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten.

    • Parameterbereik: Als u niet zeker bent van de beste parameters, kunt u de optimale parameters vinden met behulp van het onderdeel Model hyperparameters afstemmen . U geeft een bereik van waarden op en de trainer herhaalt meerdere combinaties van de instellingen om de combinatie van waarden te bepalen die het beste resultaat oplevert.

  3. Geef bij Maximum aantal bladeren per boom het maximum aantal terminale knooppunten (bladeren) aan dat in een boomstructuur kan worden gemaakt.

    Door deze waarde te verhogen, vergroot u mogelijk de grootte van de boom en krijgt u meer precisie, met het risico van overfitting en langere trainingstijd.

  4. Geef voor Minimaal aantal steekproeven per leaf-knooppunt het aantal gevallen aan dat nodig is om een terminalknooppunt (leaf) in een boomstructuur te maken.

    Door deze waarde te verhogen, verhoogt u de drempelwaarde voor het maken van nieuwe regels. Met de standaardwaarde 1 kan zelfs één hoofdlettergebruik ervoor zorgen dat er een nieuwe regel wordt gemaakt. Als u de waarde verhoogt naar 5, moeten de trainingsgegevens ten minste vijf cases bevatten die aan dezelfde voorwaarden voldoen.

  5. Bij Leersnelheid typt u een getal tussen 0 en 1 waarmee de stapgrootte tijdens het leren wordt gedefinieerd.

    De leersnelheid bepaalt hoe snel of traag de cursist convergeert op de optimale oplossing. Als de stapgrootte te groot is, kunt u de optimale oplossing overslaan. Als de stap te klein is, duurt het trainen langer om te convergeren op de beste oplossing.

  6. Geef bij Aantal samengestelde bomen het totale aantal beslissingsstructuren aan dat in het ensemble moet worden gemaakt. Door meer beslissingsstructuren te maken, kunt u mogelijk een betere dekking krijgen, maar de trainingstijd neemt toe.

    Als u de waarde instelt op 1, wordt slechts één structuur geproduceerd (de structuur met de eerste set parameters) en worden er geen verdere iteraties uitgevoerd.

  7. Voor Seed van willekeurig getal typt u desgewenst een niet-negatief geheel getal dat u als willekeurige seed-waarde wilt gebruiken. Als u een seed opgeeft, zorgt u voor reproduceerbaarheid voor uitvoeringen met dezelfde gegevens en parameters.

    De willekeurige seed is standaard ingesteld op 0, wat betekent dat de oorspronkelijke seed-waarde wordt verkregen van de systeemklok. Opeenvolgende uitvoeringen met behulp van een willekeurige seed kunnen verschillende resultaten hebben.

  8. Het model trainen:

    • Als u de modus Trainer maken instelt op Enkele parameter, verbindt u een getagde gegevensset en het onderdeel Train Model .

    • Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met hyperparameters afstemmen.

    Notitie

    Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkelvoudige parameters gebruikt.

    Als u één set parameterwaarden doorgeeft aan het onderdeel Model hyperparameters afstemmen en er een bereik van instellingen voor elke parameter wordt verwacht, worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt.

    Als u de optie Parameterbereik selecteert en één waarde voor een parameter invoert, wordt die ene waarde die u hebt opgegeven, gebruikt tijdens de sweep, zelfs als andere parameters in een bereik van waarden veranderen.

Resultaten

Nadat de training is voltooid:

  • Als u een momentopname van het getrainde model wilt opslaan, selecteert u het tabblad Uitvoer in het rechterdeelvenster van het onderdeel Model trainen . Selecteer het pictogram Gegevensset registreren om het model op te slaan als een herbruikbaar onderdeel.

  • Als u het model wilt gebruiken voor scoren, voegt u het onderdeel Score Model toe aan een pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.