Beslissingsforest met twee klassen

Hiermee wordt een classificatie model met twee klassen gemaakt met behulp van het algoritme van het beslissings forest

Categorie: model/classificatie machine learning/initialiseren

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module beslissings forest met twee klassen in azure machine learning Studio (klassiek) kunt gebruiken om een machine learning model te maken op basis van het algoritme voor de beslissings bossen.

Beslissings bossen zijn snelle, onder Super visie gemodelleerde ensemble-modellen. Deze module is een goede keuze als u een doel wilt voors pellen met Maxi maal twee resultaten. Als u niet zeker weet hoe u een beslissings structuur model voor de beste resultaten configureert, wordt u aangeraden de Hyper parameters-module voor het afstemmen van het model te gebruiken om meerdere modellen te trainen en te testen. herhaalde iteraties over meerdere mogelijkheden en zoek de optimale oplossing voor u.

Informatie over beslissings bossen

Deze beslissings forest-algoritme is een ensemble-leer methode die is bedoeld voor classificatie taken. Ensemble-methoden zijn gebaseerd op het algemene principe dat in plaats van op één model moet worden gebruikgemaakt, u krijgt betere resultaten en een meer gegeneraliseerde model door meerdere gerelateerde modellen te maken en deze op een of andere manier te combi neren. In het algemeen bieden ensemble-modellen betere dekking en nauw keurigheid dan enkelvoudige beslissings structuren.

Er zijn veel manieren om afzonderlijke modellen te maken en deze te combi neren in een ensemble. Deze specifieke implementatie van een besluit forest werkt door meerdere beslissings structuren te bouwen en vervolgens te stemmen op de meest populaire uitvoer klasse. Stemmen is een van de betere bekende methoden voor het genereren van resultaten in een ensembles model.

  • Er worden veel afzonderlijke classificatie structuren gemaakt met behulp van de volledige gegevensset, maar verschillende (meestal wille keurig) begin punten. Dit wijkt af van de benadering van een wille keurige forest, waarbij de afzonderlijke beslissings structuren mogelijk alleen een wille keurig deel van de gegevens of functies gebruiken.
  • Elke structuur in de structuur van het beslissings forest voert een niet-genormaliseerd frequentie histogram van labels uit.
  • Het aggregatie proces berekent deze histogrammen en normaliseert het resultaat om de ' kansen ' voor elk label op te halen.
  • De structuren die een hoog Voorspellings betrouwbaarheids niveau hebben, hebben een groter gewicht in de definitieve beslissing van de ensemble.

Beslissings structuren in het algemeen hebben veel voor delen voor classificatie taken:

  • Ze kunnen niet-lineaire beslissings grenzen vastleggen.
  • U kunt veel gegevens trainen en voors pellen, omdat ze efficiënt zijn in berekeningen en geheugen gebruik.
  • De functie selectie is geïntegreerd in de trainings-en classificatie processen.
  • Structuren kunnen ruis gegevens en veel functies bevatten.
  • Dit zijn niet-parametrische modellen, wat betekent dat ze gegevens kunnen verwerken met verschillende distributies.

Eenvoudige beslissings structuren kunnen echter overfit aan gegevens en zijn minder generaliseer dan een boom ensemble.

Zie voor meer informatie Decision bossenof de andere documenten die worden vermeld in de sectie technische opmerkingen .

Two-Class decision-forest configureren

  1. Voeg de module beslissings forest met twee klassen toe aan uw experiment in azure machine learning Studio (klassiek) en open het deel venster Eigenschappen van de module.

    U kunt de module vinden onder machine learning. Vouw initialiserenen vervolgens classificatieuit.

  2. Kies voor resampling methodede methode die is gebruikt voor het maken van de afzonderlijke structuren. U kunt kiezen uit een of meer van de replicatie.

    • Overbaggen: de functie voor het verzamelen van de Boots trap In deze methode wordt elke structuur op een nieuw voor beeld gekweekt, gemaakt door de oorspronkelijke gegevensset wille keurig te bemonsteren, totdat u een gegevensset hebt die de oorspronkelijke grootte heeft.

      De uitvoer van de modellen worden gecombineerd door middel van stemmen. Dit is een vorm van aggregatie. Elke structuur in een forest met classificatie beslissingen voert een niet-genormaliseerde frequentie histogram met labels uit. De aggregatie is het opsommen van deze histogrammen en voor het verkrijgen van de ' kansen ' voor elk label. Op deze manier hebben de structuren met een hoog Voorspellings betrouwbaarheids niveau een groter gewicht in de definitieve beslissing van de ensemble.

      Zie de Wikipedia-vermelding voor Boots trap aggregatie voor meer informatie.

    • Repliceren: in replicatie wordt elke structuur getraind op exact dezelfde invoer gegevens. De bepaling waarvan het gesplitste predicaat voor elk structuur knooppunt wordt gebruikt, blijft wille keurig en de structuur is divers.

      Zie voor meer informatie over het trainings proces met de optie repliceren de artikelen die worden vermeld in de sectie technische opmerkingen .

  3. Geef op hoe u wilt dat het model wordt getraind door de optie trainer modus maken in te stellen.

    • Eén para meter: als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden als argumenten opgeven.

    • Parameter bereik: als u niet zeker weet wat de beste para meters zijn, kunt u de optimale para meters vinden door meerdere waarden op te geven en de module model Hyper parameters te gebruiken om de optimale configuratie te vinden. De trainer herhaalt meerdere combi Naties van de instellingen die u hebt ingevoerd en bepaalt de combi natie van waarden die het beste model produceert.

  4. Voor het aantal beslissings structurentypt u het maximum aantal beslissings structuren dat kan worden gemaakt in de ensemble. Door meer beslissings structuren te maken, kunt u een betere dekking krijgen, maar de trainings tijd wordt verhoogd.

    Notitie

    Deze waarde bepaalt ook het aantal structuren dat wordt weer gegeven wanneer het getrainde model wordt gevisualiseerd. Als u één boom structuur wilt zien of afdrukken, kunt u de waarde instellen op 1. Er kan echter maar één structuur worden geproduceerd (de boom structuur met de initiële set para meters) en er worden geen verdere herhalingen uitgevoerd.

  5. Voor de maximale diepte van de beslissings structurentypt u een getal om de maximale diepte van een beslissings structuur te beperken. Het verg Roten van de diepte van de structuur kan nauw keuriger zijn, met het risico van een aantal verdeelde en verhoogde opleidings tijd.

  6. Voor het aantal wille keurige splitsingen per knoop punttypt u het aantal splitsingen dat moet worden gebruikt bij het maken van elk knoop punt van de structuur. Een splitsing houdt in dat onderdelen in elk niveau van de structuur (knoop punt) wille keurig worden gedeeld.

  7. Geef voor het minimum aantal steek proeven per blad knooppunthet minimale aantal cases op dat nodig is om een Terminal knooppunt (Leaf) in een structuur te maken.

    Door deze waarde te verhogen, verhoogt u de drempel voor het maken van nieuwe regels. Met de standaard waarde 1 kan zelfs een enkele case ertoe leiden dat een nieuwe regel wordt gemaakt. Als u de waarde op 5 verhoogt, moeten de opleidings gegevens ten minste 5 gevallen bevatten die aan dezelfde voor waarden voldoen.

  8. Selecteer de optie onbekende waarden toestaan voor categorische functies om een groep te maken voor onbekende waarden in de trainings-of validatie sets. Het model is mogelijk minder nauw keurig voor bekende waarden, maar het kan betere voor spellingen bieden voor nieuwe (onbekende) waarden.

    Als u deze optie uitschakelt, kan het model alleen de waarden accepteren die deel uitmaken van de trainings gegevens.

  9. Koppel een gegevensset met een label en een van de trainings modules:

    • Als u de modus trainer maken instelt op één para meter, gebruikt u de module Train model .

    • Als u de modus trainer maken instelt op het parameter bereik, gebruikt u Tune model Hyper parameters.

    Notitie

    Als u een parameter bereik doorgeeft aan een Train-model, wordt alleen de eerste waarde in de lijst met parameter bereik gebruikt.

    Als u één set parameter waarden doorgeeft aan de Hyper parameters-module van het model voor het afstemmen van een reeks instellingen voor elke para meter, worden de waarden genegeerd en worden de standaard waarden gebruikt voor de kenniser.

    Als u de optie voor het parameter bereik selecteert en één waarde voor een para meter opgeeft, wordt die enkele waarde gebruikt tijdens de sweep, zelfs als andere para meters worden gewijzigd in een bereik van waarden.

Resultaten

Nadat de training is voltooid:

  • Klik met de rechter muisknop op de uitvoer van de module Train model of de module model Hyper parameters en selecteer visualiserenom de structuur te zien die op elke iteratie is gemaakt.

    Klik op elke structuur om in te zoomen op de splitsingen en Bekijk de regels voor elk knoop punt.

  • Als u een moment opname van het model wilt opslaan, klikt u met de rechter muisknop op de getrainde model uitvoer en selecteert u model opslaan. Het opgeslagen model wordt niet bijgewerkt bij opeenvolgende uitvoeringen van het experiment.

  • Als u het model voor scores wilt gebruiken, voegt u de module score model toe aan een experiment.

Voorbeelden

Zie voor voor beelden van het gebruik van beslissings forests in machine learning de voorbeeld experimenten in de Azure AI Gallery:

  • Nieuws categorisatie: vergelijkt een classificatie met meerdere klassen met een model dat is gemaakt met behulp van het algoritme voor de beslissings forest met twee klassen met de One-vs-all Multiclass.

  • Voor speld onderhoud: een uitgebreide walkthrough waarbij gebruik wordt gemaakt van het algoritme voor de beslissings forest met twee klassen om te voors pellen of een Asset binnen een bepaald tijds bestek mislukt.

Technische opmerkingen

In deze sectie vindt u meer informatie over de implementatie, onderzoek en veelgestelde vragen.

Gebruiks tips

Als u beperkte gegevens hebt of als u de tijd die nodig is voor het trainen van het model wilt minimaliseren, kunt u de volgende instellingen proberen:

Beperkte Trainingsset

Als de Trainingsset een beperkt aantal exemplaren bevat:

  • Maak het besluit forest met behulp van een groot aantal beslissings structuren (bijvoorbeeld meer dan 20).
  • Gebruik de optie voor het overschakelen voor resampling.
  • Geef een groot aantal wille keurige splitsingen per knoop punt op (bijvoorbeeld meer dan 1.000).

Beperkte trainings tijd

Als de Trainingsset een groot aantal exemplaren bevat en de trainings tijd is beperkt:

  • Maak het besluitvormings forest door minder beslissings structuren te gebruiken (bijvoorbeeld 5-10).
  • Gebruik de optie repliceren voor resampling.
  • Geef een kleiner aantal wille keurige splitsingen per knoop punt op (bijvoorbeeld minder dan 100).

Implementatie Details

Dit artikel van micro soft Research biedt nuttige informatie over ensemble-methoden die gebruikmaken van beslissings structuren. Van Stumps naar vertakkingen naar forests.

Voor meer informatie over het trainings proces met de optie repliceren raadpleegt u besluitvormings forests voor computer vision en medische afbeeldings analyse. Criminisi en J. Shotton. Springer 2013.

Module parameters

Naam Bereik Type Standaard Beschrijving
Resampling methode Alle ResamplingMethod Overbaggen Een resampling methode kiezen
Aantal beslissings structuren >= 1 Geheel getal 8 Geef het aantal beslissings structuren op dat in de ensemble moet worden gemaakt
Maximale diepte van de beslissings structuren >= 1 Geheel getal 32 De maximale diepte opgeven van een beslissings structuur die kan worden gemaakt
Aantal wille keurige splitsingen per knoop punt >= 1 Geheel getal 128 Geef het aantal gesplitste splitsingen per knoop punt op waaruit de optimale splitsing is geselecteerd
Minimum aantal steek proeven per Leaf-knoop punt >= 1 Geheel getal 1 Geef het minimum aantal trainings voorbeelden op dat vereist is voor het maken van een blad knooppunt
Onbekende waarden toestaan voor categorische-functies Alle Boolean-waarde True Geef aan of onbekende waarden van bestaande categorische-functies kunnen worden toegewezen aan een nieuwe, extra functie

Uitvoer

Naam Type Beschrijving
Niet-traind model ILearner-interface Een niet-getraind binair classificatie model

Zie ook

Ontbreekt
Regressie voor beslissings structuur
Multi Class-besluitvormings forest
Module lijst a-Z