Two-Class beslut Jungle

Skapar en klassificerings modell med två klasser med hjälp av beslut Jungle-algoritmen

Kategori: Machine Learning/initiera modell/klassificering

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Översikt över modul

Den här artikeln beskriver hur du använder besluts Jungle-modulen i två klass i Azure Machine Learning Studio (klassisk) för att skapa en maskin inlärnings modell som baseras på en övervakad Ensemble-utbildningskurs som kallas beslut beslutsdjungler.

Jungle-modulen i två klass returnerar en ej tränad klassificerare. Du tränar sedan den här modellen på en etikettad tränings data uppsättning med hjälp av träna modell eller finjustera modellens egenskaper. Den tränade modellen kan sedan användas för att göra förutsägelser.

Mer om beslut beslutsdjungler

Beslut beslutsdjungler är ett nyligen tillägg till besluts skogar. Ett beslut Jungle består av en ensembler av beslut riktade mot acykliska diagram (dag).

Beslut beslutsdjungler har följande fördelar:

  • Genom att göra det möjligt för träd grenar att sammanfoga, har ett beslut vanligt vis ett mindre minnes utrymme och bättre generalisering-prestanda än ett besluts träd, med kostnad av lite längre inlärnings tid.

  • Beslut beslutsdjungler är icke-parameter modeller som kan representera icke-linjära besluts gränser.

  • De utför integrerade funktions val och klassificering och är elastiska i närvaro av brus funktioner.

Tips

Mer information om forskningen bakom denna Machine Learning-algoritm finns i beslut beslutsdjungler: komprimera och snygga modeller för klassificering (nedladdnings bar PDF).

Så här konfigurerar du Two-Class beslut Jungle

  1. Lägg till besluts Jungle-modulen i två klass i ditt experiment i Studio (klassisk).

  2. För metoden för att sampla om väljer du den metod som används för att skapa enskilda träd. Du kan välja mellan bagage eller Replikera.

    • Bagage: Välj det här alternativet om du vill använda bagage, även kallat bootstrap-aggregering.

      Varje träd i ett beslut Jungle matar ut en Gaussisk-distribution som förutsägelse. Aggregation är att hitta en Gaussisk vars första två moment motsvarar momentet av en blandning av Gaussisk som anges genom att kombinera alla Gaussisk som returneras av enskilda träd.

    • Replikera: i replikering tränas varje träd på exakt samma indata. Bestämning av vilket delat predikat som används för varje trädnod förblir slumpmässigt och träden är olika.

      Mer information finns i besluts skogar för visuellt innehåll och medicinsk bild analys. Criminisi och J. Shotton. Springer 2013.

  3. Ange hur du vill att modellen ska tränas genom att ställa in alternativet skapa utbildare läge .

    • Enskild parameter: om du vet hur du vill konfigurera modellen kan du ange en viss uppsättning värden som argument.

    • Parameter intervall: om du inte är säker på de bästa parametrarna kan du hitta de optimala parametrarna genom att ange flera värden och använda modulen finjustera modellets standardparametrar för att hitta den optimala konfigurationen. Utbildaren itererar över flera kombinationer av de inställningar du har angett och avgör den kombination av värden som ger den bästa modellen.

  4. För antalet beslut dag anger du det maximala antalet grafer som kan skapas i ensemblen.

  5. För det högsta djupet för besluts dag anger du det maximala djupet för varje diagram.

  6. För den maximala bredden för besluts dag anger du den maximala bredden för varje diagram.

  7. I antal optimerings steg per beslut dag-lager anger du hur många iterationer som ska utföras av de data som ska utföras när du skapar varje dag.

  8. Välj alternativet Tillåt okända värden för kategoriska-funktioner för att skapa en grupp för okända värden i testnings-eller verifierings data.

    Om du avmarkerar den kan modellen bara acceptera de värden som finns i tränings data. I det förra fallet kan modellen vara mindre exakt för kända värden, men den kan ge bättre förutsägelser för nya (okända) värden.

  9. Lägg till en taggad data uppsättning i experimentet och Anslut en av träna-modulerna.

    Anteckning

    Om du skickar ett parameter intervall för att träna modellen, används bara det första värdet i parameter intervall listan.

    Om du skickar en enda uppsättning parameter värden till modulen finjustera modellens standardparametrar , ignoreras värdena och standardvärdena används för eleven när en uppsättning inställningar förväntas för varje parameter.

    Om du väljer alternativet parameter intervall och anger ett enda värde för en parameter, används det enskilda värdet som du har angett i hela svepet, även om andra parametrar ändras i ett intervall med värden.

Resultat

När utbildningen är klar:

  • Om du vill använda modellen för poängsättning ansluter du den till Poäng modellenoch förutsäger värdena för nya ingångs exempel.

Exempel

Exempel på hur beslut beslutsdjungler används i Machine Learning finns i Azure AI Gallery:

Tekniska anteckningar

Det här avsnittet innehåller implementerings information, tips och svar på vanliga frågor.

Användnings tips

Om du har begränsade data eller vill minimera den tid som krävs för att träna modellen, kan du prova de här inställningarna.

Begränsad inlärnings uppsättning

Om din inlärnings uppsättning är liten:

  • Skapa besluts Jungle genom att använda ett stort antal besluts dag (till exempel mer än 20).
  • Använd alternativet bagage för omsampling.
  • Ange ett stort antal optimerings steg per DAG skikt (till exempel mer än 10 000).

Begränsad inlärnings tid

Om inlärnings uppsättningen är stor men inlärnings tiden är begränsad:

  • Skapa besluts Jungle med ett mindre antal besluts dag (till exempel 5-10).
  • Använd alternativet Replikera för omsampling.
  • Ange ett mindre antal optimerings steg per DAG skikt (till exempel mindre än 2000).

Parametrar för modul

Name Intervall Typ Standardvärde Beskrivning
Omsamplings metod Valfri ResamplingMethod Bagage Välj en metod för att sampla
Antal beslut dag >= 1 Integer 8 Ange det antal besluts diagram som ska byggas i ensemblen
Högsta djup för besluts dag >= 1 Integer 32 Ange det maximala djupet i besluts diagrammet i ensemblen
Maximal bredd för besluts dag >= 8 Integer 128 Ange den maximala bredden för besluts diagrammet i ensemblen
Antal optimerings steg per beslut DAG-lager >= 1000 Integer 2048 Ange hur många steg som ska användas för att optimera varje nivå i besluts diagrammet
Tillåt okända värden för kategoriska-funktioner Valfri Boolesk Sant Ange om okända värden för befintliga kategoriska-funktioner kan mappas till en ny, ytterligare funktion

Utdata

Namn Typ Beskrivning
Modell som inte är tränad ILearner-gränssnitt En modell med en klass som inte är tränad.

Se även

Klassning
Jungle av multiklasss beslut
En-ö-modul lista