Regressie snelle forestkwantiel

Hiermee maakt u een quantile-regressie model

Categorie: model/regressie machine learning/initialiseren

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de Quantile-module voor snelle structuur in azure machine learning Studio (klassiek) kunt gebruiken om een regressie model te maken waarmee waarden voor een opgegeven aantal quantiles kunnen worden voor speld.

Quantile regressie is handig als u meer wilt weten over de verdeling van de voorspelde waarde, in plaats van een enkele gemiddelde Voorspellings waarde te verkrijgen. Deze methode heeft veel toepassingen, waaronder:

  • Voors pellen van prijzen

  • De prestaties van studenten schatten of een groei diagram Toep assen om de onderliggende ontwikkeling te beoordelen

  • Voorspellende relaties detecteren in gevallen waarbij er slechts een zwakke relatie tussen variabelen is

Dit regressie algoritme is een gemarkeerde leer methode. Dit betekent dat er een gecodeerde gegevensset is vereist die een kolom Label bevat. Omdat het een regressie algoritme is, mag de kolom Label alleen numerieke waarden bevatten.

Meer informatie over quantile regressie

Er zijn veel verschillende typen regressies. In de meest eenvoudige zin betekent regressie het aanpassen van een model op een doel uitgedrukt in een numerieke vector. Statistici zijn echter steeds meer geavanceerde methoden ontwikkeld voor regressie.

De eenvoudigste definitie van quantile is een waarde die een set gegevens opsplitst in groepen van gelijke grootte. de waarden voor quantile markeren dus de grenzen tussen groepen. Statistische spraak: quantiles zijn waarden die met regel matige tussen pozen worden uitgevoerd op basis van de inverse van de functie van de cumulatieve verdeling (CDF) van een wille keurige variabele.

Wanneer lineaire regressie modellen proberen de waarde van een numerieke variabele te voors pellen met behulp van één schatting, het gemiddelde, soms moet u het bereik of de volledige distributie van de doel variabele voors pellen. Voor dit doel zijn technieken als Bayesiaanse-regressie en quantile-regressie ontwikkeld.

Quantile regressie helpt u bij het begrijpen van de distributie van de voorspelde waarde. Quantile regressie modellen op basis van een structuur, zoals de toepassing die in deze module wordt gebruikt, hebben het extra voor deel dat ze kunnen worden gebruikt om niet-parametrische distributies te voors pellen.

Zie de sectie technische opmerkingen voor meer informatie over de implementatie en bronnen.

Fast_Forest regressie Quantile configureren

U configureert de eigenschappen van het regressie model met behulp van deze module en traint het vervolgens met een van de trainings modules.

De configuratie stappen variëren aanzienlijk dependng of u een vaste set para meters opgeeft, of het instellen van een parameter sweep.

Een quantile-regressie model maken met behulp van vaste para meters

Ervan uitgaande dat u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten. Wanneer u het model traint, gebruikt u Train model.

  1. Voeg de Quantile regressie module van het snelle forest toe aan uw experiment in Studio (klassiek).

  2. Stel de optie trainer modus maken in op één para meter.

  3. Voor het aantal structurentypt u het maximum aantal structuren dat kan worden gemaakt in de ensemble. Als u meer bomen maakt, leidt dit doorgaans tot een grotere nauw keurigheid, maar op de kosten van een langere training.

  4. Voor het aantal Bladestypt u het maximum aantal Leaves of Terminal knooppunten dat in een wille keurige boom structuur kan worden gemaakt.

  5. Voor het minimum aantal trainings instanties dat is vereist voor het maken van een blad , geeft u het minimum aantal voor beelden op dat nodig is om een Terminal knooppunt (Leaf) in een structuur te creëren.

    Door deze waarde te verhogen, verhoogt u de drempel voor het maken van nieuwe regels. Met de standaard waarde 1 kan zelfs een enkele case ertoe leiden dat een nieuwe regel wordt gemaakt. Als u de waarde op 5 verhoogt, moeten de trainings gegevens ten minste 5 cases bevatten die voldoen aan dezelfde voor waarden

  6. Geef voor de brekings fractieeen getal tussen 0 en 1 op dat het gedeelte van de voor beelden vertegenwoordigt dat moet worden gebruikt bij het samen stellen van elke groep quantiles. Voor beelden worden wille keurig gekozen, met vervanging.

  7. Voor de functie fractietypt u een getal tussen 0 en 1 dat de Fractie van het totale aantal functies aangeeft dat moet worden gebruikt bij het bouwen van een bepaalde boom structuur. Functies worden altijd wille keurig gekozen.

  8. Voor Split-breukentypt u een getal tussen 0 en 1 dat het gedeelte van de functies vertegenwoordigt dat moet worden gebruikt in elke Splits structuur. De gebruikte functies worden altijd wille keurig gekozen.

  9. Voor een Quantile-voorbeeld tellingtypt u het aantal cases dat moet worden geëvalueerd bij het schatten van de quantiles.

  10. Voor Quantiles moetu een door komma's gescheiden lijst van de Quantiles invoeren waarvoor u het model wilt trainen en de voor spellingen wilt maken.

    Als u bijvoorbeeld een model wilt maken dat schattingen voor kwartielen, typt u 0.25, 0.5, 0.75 .

  11. Typ desgewenst een waarde voor wille keurig getal Seed als seeding van de generator voor wille keurige getallen die wordt gebruikt door het model. De standaard waarde is 0, wat betekent dat er een wille keurige Seed wordt gekozen.

    U moet een waarde opgeven als u de resultaten van opeenvolgende uitvoeringen op dezelfde gegevens wilt reproduceren.

  12. Selecteer de optie onbekende categorische niveaus toestaan om een groep te maken voor onbekende waarden.

    Als u deze optie uitschakelt, kan het model alleen de waarden accepteren die deel uitmaken van de trainings gegevens.

    Als u deze optie selecteert, is het model mogelijk minder nauw keurig voor bekende waarden, maar dit kan betere voor spellingen bieden voor nieuwe (onbekende) waarden.

  13. Verbind een trainings gegevensset, selecteer een kolom met één label en verbind Train model.

  14. Voer het experiment uit.

Een para meter opruimen gebruiken om een quantile regressie model te maken

Als u niet zeker bent van de optimale para meters voor het model, kunt u een parameter sweep configureren en een reeks waarden opgeven als argumenten. Wanneer u het model traint, gebruikt u de Hyper parameters-module voor het afstemmen van het model.

  1. Voeg de Quantile regressie module van het snelle forest toe aan uw experiment in Studio (klassiek).

  2. Stel de optie trainer modus maken in op parameter bereik.

    Een para meter-sweep wordt aanbevolen als u niet zeker weet wat de beste para meters zijn. Als u meerdere waarden opgeeft en de module model Hyper parameters afstemmen gebruikt om het model te trainen, kunt u de optimale set para meters voor uw gegevens vinden.

    Nadat u een parameter sweep hebt gekozen, kunt u voor elke eigenschap die instel bare is een enkele waarde of meerdere waarden instellen. U kunt bijvoorbeeld besluiten het aantal bomen te herstellen, maar wille keurig andere waarden wijzigen die bepalen hoe elke boom structuur wordt gebouwd.

    • Als u één waarde typt, wordt deze waarde gebruikt in alle iteraties van de sweep, zelfs als andere waarden veranderen.

    • Typ een door komma's gescheiden lijst met discrete waarden die u wilt gebruiken. Deze waarden worden gebruikt in combi natie met andere eigenschappen.

    • Met de opbouw functie voor bereik kunt u een reeks doorlopende waarden definiëren.

    Tijdens het trainings proces wordt de module Tune model Hyper parameters herhaald met verschillende combi Naties van de waarden om het beste model te bouwen.

  3. Voor het maximum aantal Leaves per boomtypt u het totale aantal bladeren of Terminal knooppunten dat in elke structuur moet worden toegestaan.

  4. Voor het aantal geconstrueerde structurentypt u het aantal iteraties dat moet worden uitgevoerd bij het bouwen van de ensemble. Door meer structuren te maken, kunt u een betere dekking krijgen, tegen de kosten van verhoogde opleidings tijd.

  5. Geef aan hoeveel cases zijn vereist voor het maken van een Leaf-knoop punt voor Mini maal aantal steek proeven per Leaf-knoop punt.

    Door deze waarde te verhogen, verhoogt u de drempel voor het maken van nieuwe regels. Met de standaard waarde 1 kan zelfs een enkele case ertoe leiden dat een nieuwe regel wordt gemaakt. Als u de waarde op 5 verhoogt, moeten de opleidings gegevens ten minste 5 gevallen bevatten die aan dezelfde voor waarden voldoen.

  6. Typ de Fractie van voor beelden die moeten worden gebruikt bij het maken van elke groep quantiles in het bereik van de fractie. Voor beelden worden wille keurig gekozen, met vervanging.

    Elke fractie moet een getal tussen 0 en 1 zijn. Scheid meerdere breuken door komma's te gebruiken.

  7. In bereik van functie-fractietypt u de Fractie van het totale aantal functies dat moet worden gebruikt bij het maken van elke groep quantiles. Onderdelen worden wille keurig gekozen.

    Elke fractie moet een getal tussen 0 en 1 zijn. Scheid meerdere breuken door komma's te gebruiken.

  8. Geef in bereik voor Split-delingeen deel van de functies op die moeten worden gebruikt in elke groep quantiles. De daad werkelijke functies die worden gebruikt, worden wille keurig gekozen.

    Elke fractie moet een getal tussen 0 en 1 zijn. Scheid meerdere breuken door komma's te gebruiken.

  9. In het aantal steek proeven dat wordt gebruikt om de quantiles te ramen, geeft u aan hoeveel steek proeven moeten worden geëvalueerd bij het schatten van de quantiles. Als u een getal typt dat groter is dan het aantal beschik bare steek proeven, worden alle voor beelden gebruikt.

  10. In vereiste quantile-waardentypt u een door komma's gescheiden lijst van de quantiles waarop het model moet worden getraind. Als u bijvoorbeeld een model wilt bouwen dat een schatting van de kwartielen heeft, typt u ' 0,25, 0,5, 0,75

  11. Voer bij wille keurig getal Seedeen waarde in die de generator voor wille keurige getallen in het model moet seeden. Het gebruik van een Seed is nuttig om dubbele uitvoeringen te reproduceren.

    De standaard waarde is 0, wat betekent dat er een wille keurige Seed wordt gekozen.

  12. Selecteer de optie onbekende waarden toestaan voor categorische functies om een groep te maken voor onbekende waarden in de trainings-of validatie sets.

    Als u deze optie uitschakelt, kan het model alleen de waarden accepteren die deel uitmaken van de trainings gegevens.

    Als u deze optie selecteert, is het model mogelijk minder nauw keurig voor bekende waarden, maar dit kan betere voor spellingen bieden voor nieuwe (onbekende) waarden.

  13. Verbind een trainings gegevensset, selecteer de kolom Label en verbind de Hyper parameters-module voor het Tune-model .

    Notitie

    Gebruik het Train modelniet. Als u een parameter bereik configureert, maar Train modelgebruikt, wordt alleen de eerste waarde in de lijst met parameter bereik gebruikt.

  14. Voer het experiment uit.

Resultaten

Nadat de training is voltooid:

  • Als u de uiteindelijke Hyper parameters van het geoptimaliseerde model wilt weer geven, klikt u met de rechter muisknop op de uitvoer van het model Hyper parameters en selecteert u visualiseren.

Voorbeelden

Voor voor beelden van het gebruik van deze module raadpleegt u de Azure AI Gallery:

  • Quantile regressie: demonstreert hoe u een Quantile regressie model bouwt en interpreteert met behulp van de gegevensset voor automatische prijzen.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Implementatie Details

De module Fast Quantile regressie in azure machine learning is een implementatie van een wille keurige Quantile regressie van een forest met behulp van beslissings structuren. Wille keurige forests kunnen nuttig zijn om te voor komen dat deze zich voordoen met beslissings structuren. Een beslissings structuur is een binaire boom structuur, waarbij een van de twee onderliggende knoop punten, op basis van de waarde van een van de functies van de invoer, wordt bepaald door één knoop punt.

In elk blad knooppunt wordt een waarde geretourneerd. In de binnenste knoop punten is de beslissing gebaseerd op de test x ≤ v, waarbij x de waarde van de functie in het invoer voorbeeld is en v een van de mogelijke waarden van deze functie is. De functies die door een regressie structuur kunnen worden geproduceerd, zijn alle functies voor het constant maken van een functie.

In een wille keurig forest wordt een ensemble van structuren gemaakt met behulp van de functie voor het selecteren van een subset van wille keurige steek proeven en functies van de trainings gegevens. vervolgens past u een beslissings structuur toe op elke subset van gegevens. In tegens telling tot het algoritme voor wille keurige forests, waarbij de resultaten van de uitvoer van alle structuren worden opgedeeld , worden alle voorspelde labels in structuren die zijn opgegeven door de para meter Quantile aantal voor beelden en uitvoer de distributie, zodat de gebruiker de Quantile-waarden voor het opgegeven exemplaar kan weer geven.

Raadpleeg de volgende boeken en artikelen voor meer informatie over quantile regressie:

Module parameters

Naam Type Bereik Optioneel Beschrijving Standaard
De trainer modus maken CreateLearnerMode Lijst: één para meter|parameter bereik Vereist Eén para meter Geavanceerde opties voor meer informatie maken
Aantal structuren Geheel getal modus: één para meter 100 Het aantal te bouwen structuren opgeven
Aantal bladeren Geheel getal modus: één para meter 20 Geef het maximum aantal Leaves per structuur op. Het standaard aantal is 20
Minimum aantal trainings exemplaren dat is vereist voor het maken van een blad Geheel getal modus: één para meter 10 Hiermee wordt het minimum aantal trainings exemplaren aangegeven dat is vereist voor het maken van een blad
Brekings deling Drijvendekommagetal modus: één para meter 0,7 Hiermee wordt het gedeelte van de trainings gegevens aangegeven dat voor elke structuur moet worden gebruikt
Functie Fractie Drijvendekommagetal modus: één para meter 0,7 Hiermee wordt het gedeelte van de functies (wille keurig gekozen) opgegeven dat voor elke structuur moet worden gebruikt
Breuk splitsen Drijvendekommagetal modus: één para meter 0,7 Hiermee wordt het gedeelte van de functies (wille keurig gekozen) opgegeven dat voor elke splitsing moet worden gebruikt
Aantal voor beelden van Quantile Geheel getal Max.: 2147483647 modus: één para meter 100 Hiermee geeft u het aantal exemplaren dat in elk knoop punt wordt gebruikt om quantiles te schatten
Quantiles moet worden geschat Tekenreeks modus: één para meter "0,25; 0,5; 0,75" Hiermee geeft u de quantile op die moet worden geschat
Wille keurig getal zaad Geheel getal Optioneel Geef een Seed op voor de generator voor wille keurige getallen die wordt gebruikt door het model. Laat de standaard waarde leeg.
Onbekende categorische-niveaus toestaan Boolean-waarde Vereist true Indien waar, wordt een extra niveau gemaakt voor elke kolom categorische. De niveaus in de gegevensset test die niet beschikbaar zijn in de trainings gegevensset, worden toegewezen aan dit extra niveau.
Maximum aantal Leaves per boom structuur ParameterRangeSettings [16; 128] modus: parameter bereik 18 32; 64 Geef het bereik op voor het maximum aantal Leaves dat per boom structuur is toegestaan
Aantal geconstrueerde structuren ParameterRangeSettings [1; 256] modus: parameter bereik 18 32; 64 Geef het bereik op voor het maximum aantal structuren dat tijdens de training kan worden gemaakt
Minimum aantal steek proeven per Leaf-knoop punt ParameterRangeSettings [1; 10] modus: parameter bereik i 5,0 6 Geef het bereik op voor het minimum aantal cases dat is vereist voor het maken van een blad
Bereik voor de splitsing van de Fractie ParameterRangeSettings [0.25; 1.0] modus: parameter bereik 0,25; 0,5; 0,75 Hiermee geeft u het bereik op voor het gedeelte van de trainings gegevens dat voor elke structuur moet worden gebruikt
Bereik voor functie Fractie ParameterRangeSettings [0.25; 1.0] modus: parameter bereik 0,25; 0,5; 0,75 Hiermee geeft u het bereik op voor een fractie van onderdelen (wille keurig gekozen) voor elke structuur
Bereik voor gesplitste breuk ParameterRangeSettings [0.25; 1.0] modus: parameter bereik 0,25; 0,5; 0,75 Hiermee geeft u het bereik op voor een fractie van onderdelen (wille keurig gekozen) voor elke splitsing
Aantal samples dat wordt gebruikt om de quantiles te ramen Geheel getal modus: parameter bereik 100 Aantal samples dat wordt gebruikt om de quantiles te ramen
Vereiste quantile-waarden Tekenreeks modus: parameter bereik "0,25; 0,5; 0,75" Vereiste quantile-waarde gebruikt tijdens het opruimen van de para meter

Outputs

Naam Type Beschrijving
Niet-traind model ILearner-interface Een niet-traind quantile regressie model dat kan worden verbonden met het algemene model van de trein of door de model modules voor meerdere validaties.

Zie ook

Regressie