Two-Class förbättrad beslutsträdskomponent

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att skapa en maskininlärningsmodell som baseras på algoritmen för förbättrade beslutsträd.

Ett förbättrat beslutsträd är en ensembleinlärningsmetod där det andra trädet korrigerar för felen i det första trädet, det tredje trädet korrigerar för felen i det första och andra träden och så vidare. Förutsägelser baseras på hela ensemblen av träd tillsammans som gör förutsägelsen.

Vanligtvis är förstärkta beslutsträd de enklaste metoderna för att få bästa prestanda för en mängd olika maskininlärningsuppgifter när de är korrekt konfigurerade. Men de är också en av de mer minnesintensiva eleverna, och den aktuella implementeringen innehåller allt i minnet. Därför kanske en förstärkt beslutsträdsmodell inte kan bearbeta de stora datamängder som vissa linjära elever kan hantera.

Den här komponenten baseras på LightGBM-algoritmen.

Konfigurera

Den här komponenten skapar en otränad klassificeringsmodell. Eftersom klassificering är en övervakad inlärningsmetod behöver du en taggad datauppsättning som innehåller en etikettkolumn med ett värde för alla rader för att träna modellen.

Du kan träna den här typen av modell med hjälp av Träningsmodell.

  1. I Azure Machine Learning lägger du till komponenten Boosted Decision Tree i din pipeline.

  2. Ange hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enkel parameter: Om du vet hur du vill konfigurera modellen kan du ange en specifik uppsättning värden som argument.

    • Parameterintervall: Om du inte är säker på de bästa parametrarna kan du hitta de optimala parametrarna med hjälp av komponenten Tune Model Hyperparameters . Du anger vissa värden och utbildaren itererar över flera kombinationer av inställningarna för att fastställa kombinationen av värden som ger det bästa resultatet.

  3. För Maximalt antal löv per träd anger du det maximala antalet terminalnoder (löv) som kan skapas i valfritt träd.

    Genom att öka det här värdet kan du öka trädstorleken och få bättre precision, med risk för överanpassning och längre träningstid.

  4. För Minsta antal exempel per lövnod anger du det antal fall som krävs för att skapa en terminalnod (löv) i ett träd.

    Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt ärende leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst fem fall som uppfyller samma villkor.

  5. För Inlärningstakt anger du ett tal mellan 0 och 1 som definierar stegstorleken under inlärningen.

    Inlärningshastigheten avgör hur snabbt eller långsamt eleven konvergerar på den optimala lösningen. Om stegstorleken är för stor kan du felsöka den optimala lösningen. Om stegstorleken är för liten tar träningen längre tid att konvergera på den bästa lösningen.

  6. För Antal byggda träd anger du det totala antalet beslutsträd som ska skapas i ensemblen. Genom att skapa fler beslutsträd kan du eventuellt få bättre täckning, men träningstiden ökar.

    Om du anger värdet till 1 skapas bara ett träd (trädet med den ursprungliga uppsättningen parametrar) och inga ytterligare iterationer utförs.

  7. För Slumptalsutsöndrad anger du ett icke-negativt heltal som ska användas som slumpmässigt startvärde. Om du anger ett startvärde säkerställs reproducerbarheten för körningar som har samma data och parametrar.

    Det slumpmässiga fröet anges som standard till 0, vilket innebär att det ursprungliga frövärdet hämtas från systemklockan. Efterföljande körningar med hjälp av ett slumpmässigt frö kan ha olika resultat.

  8. Träna modellen:

    • Om du anger Skapa träningsläge till Enskild parameter ansluter du en taggad datauppsättning och komponenten Träna modell .

    • Om du ställer in Skapa träningslägeParameterintervall ansluter du en taggad datauppsättning och tränar modellen med hjälp av Tune Model Hyperparameters.

    Anteckning

    Om du skickar ett parameterintervall till Träna modell används endast standardvärdet i listan med enskilda parametrar.

    Om du skickar en enda uppsättning parametervärden till komponenten Tune Model Hyperparameters ignorerar den värdena när den förväntar sig ett intervall med inställningar för varje parameter och använder standardvärdena för eleven.

    Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under svepningen, även om andra parametrar ändras över ett värdeintervall.

Resultat

När träningen är klar:

  • Om du vill spara en ögonblicksbild av den tränade modellen väljer du fliken Utdata på den högra panelen i komponenten Träna modell . Välj ikonen Registrera datauppsättning för att spara modellen som en återanvändbar komponent.

  • Om du vill använda modellen för bedömning lägger du till komponenten Poängsätta modell i en pipeline.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.