Filterbaserat funktionsval

Den här artikeln beskriver hur du använder komponenten Filterbaserad funktionsval i Azure Machine Learning designer. Den här komponenten hjälper dig att identifiera kolumnerna i din indatauppsättning som har störst prediktiv effekt.

I allmänhet refererar funktionsval till processen att tillämpa statistiska tester på indata, givet en angiven utdata. Målet är att avgöra vilka kolumner som är mer förutsägande för utdata. Komponenten Filterbaserad funktionsval innehåller flera algoritmer för funktionsval att välja mellan. Komponenten innehåller korrelationsmetoder som Pearson-korrelation och chi-kvadratvärden.

När du använder komponenten Filterbaserad funktionsval anger du en datauppsättning och identifierar kolumnen som innehåller etiketten eller den beroende variabeln. Sedan anger du en enda metod som ska användas för att mäta funktionsvikt.

Komponenten matar ut en datauppsättning som innehåller de bästa funktionskolumnerna, rangordnade efter förutsägelsekraft. Den matar också ut namnen på funktionerna och deras poäng från det valda måttet.

Vad filterbaserad funktionsval är

Den här komponenten för funktionsval kallas "filterbaserad" eftersom du använder det valda måttet för att hitta irrelevanta attribut. Sedan filtrerar du bort redundanta kolumner från din modell. Du väljer ett enda statistiskt mått som passar dina data och komponenten beräknar en poäng för varje funktionskolumn. Kolumnerna returneras rangordnade efter deras funktionspoäng.

Genom att välja rätt funktioner kan du potentiellt förbättra klassificeringens noggrannhet och effektivitet.

Du använder vanligtvis bara kolumnerna med de bästa poängen för att skapa din förutsägelsemodell. Kolumner med dåliga valresultat för funktioner kan lämnas kvar i datauppsättningen och ignoreras när du skapar en modell.

Så här väljer du ett mått för funktionsval

Komponenten Filter-Based Funktionsval innehåller en mängd olika mått för att utvärdera informationsvärdet i varje kolumn. Det här avsnittet innehåller en allmän beskrivning av varje mått och hur det tillämpas. Du hittar ytterligare krav för att använda varje mått i de tekniska anteckningarna och i anvisningarna för att konfigurera varje komponent.

  • Pearson-korrelation

    Pearsons korrelationsstatistik, eller Pearsons korrelationskoefficient, är också känd i statistiska modeller som r värdet. För två variabler returneras ett värde som anger korrelationens styrka.

    Pearsons korrelationskoefficient beräknas genom att ta kovariansen för två variabler och dividera med produkten av deras standardavvikelser. Ändringar av skala i de två variablerna påverkar inte koefficienten.

  • Chi kvadratisk

    Dubbelriktad chi-kvadrattest är en statistisk metod som mäter hur nära förväntade värden är för faktiska resultat. Metoden förutsätter att variabler är slumpmässiga och hämtas från ett lämpligt urval av oberoende variabler. Den resulterande chi-kvadratstatistiken anger hur långt resultatet är från det förväntade (slumpmässiga) resultatet.

Tips

Om du behöver ett annat alternativ för den anpassade funktionsvalsmetoden använder du komponenten Kör R-skript .

Så här konfigurerar du Filter-Based funktionsval

Du väljer ett statistiskt standardmått. Komponenten beräknar korrelationen mellan ett par kolumner: etikettkolumnen och en funktionskolumn.

  1. Lägg till komponenten Filter-Based Funktionsval i pipelinen. Du hittar den i kategorin Funktionsval i designern.

  2. Anslut en indatauppsättning som innehåller minst två kolumner som är potentiella funktioner.

    För att säkerställa att en kolumn analyseras och en funktionspoäng genereras använder du komponenten Redigera metadata för att ange attributet IsFeature .

    Viktigt

    Se till att de kolumner som du anger som indata är potentiella funktioner. Till exempel har en kolumn som innehåller ett enda värde inget informationsvärde.

    Om du vet att vissa kolumner skulle göra felaktiga funktioner kan du ta bort dem från kolumnvalet. Du kan också använda komponenten Redigera metadata för att flagga dem som kategoriska.

  3. För Funktionsbedömningsmetod väljer du någon av följande etablerade statistiska metoder som ska användas vid beräkning av poäng.

    Metod Krav
    Pearson-korrelation Etiketten kan vara text eller numerisk. Funktionerna måste vara numeriska.
    Chi kvadratisk Etiketter och funktioner kan vara text eller numeriska. Använd den här metoden för att beräkna funktionsvikt för två kategoriska kolumner.

    Tips

    Om du ändrar det valda måttet återställs alla andra val. Så se till att ange det här alternativet först.

  4. Välj alternativet Använd endast funktionskolumner för att generera en poäng endast för kolumner som tidigare har markerats som funktioner.

    Om du avmarkerar det här alternativet skapar komponenten en poäng för alla kolumner som annars uppfyller kriterierna, upp till det antal kolumner som anges i Antal önskade funktioner.

  5. För Målkolumn väljer du Starta kolumnväljaren för att välja etikettkolumnen antingen efter namn eller efter dess index. (Index är enbaserade.)
    En etikettkolumn krävs för alla metoder som omfattar statistisk korrelation. Komponenten returnerar ett designtidsfel om du inte väljer någon etikettkolumn eller flera etikettkolumner.

  6. För Antal önskade funktioner anger du antalet funktionskolumner som du vill returnera som ett resultat:

    • Det minsta antalet funktioner som du kan ange är en, men vi rekommenderar att du ökar det här värdet.

    • Om det angivna antalet önskade funktioner är större än antalet kolumner i datauppsättningen returneras alla funktioner. Även funktioner med noll poäng returneras.

    • Om du anger färre resultatkolumner än vad som finns funktionskolumner rangordnas funktionerna efter fallande poäng. Endast de viktigaste funktionerna returneras.

  7. Skicka pipelinen.

Viktigt

Om du ska använda filterbaserad funktionsval i slutsatsdragningen måste du använda Välj kolumntransformering för att lagra det valda resultatet och Tillämpa transformering för att tillämpa den valda funktionens transformering på bedömningsdatauppsättningen.

Se följande skärmbild för att skapa din pipeline för att se till att kolumnvalen är desamma för bedömningsprocessen.

Sample pipeline

Resultat

När bearbetningen är klar:

  • Om du vill se en fullständig lista över de analyserade funktionskolumnerna och deras resultat högerklickar du på komponenten och väljer Visualisera.

  • Om du vill visa datauppsättningen baserat på dina kriterier för funktionsval högerklickar du på komponenten och väljer Visualisera.

Om datauppsättningen innehåller färre kolumner än du förväntade dig kontrollerar du komponentinställningarna. Kontrollera även datatyperna för kolumnerna som anges som indata. Om du till exempel anger Antal önskade funktioner till 1 innehåller utdatauppsättningen bara två kolumner: etikettkolumnen och den högst rankade funktionskolumnen.

Tekniska anteckningar

Implementeringsdetaljer

Om du använder Pearson-korrelation på en numerisk funktion och en kategorisk etikett beräknas funktionspoängen på följande sätt:

  1. För varje nivå i den kategoriska kolumnen beräknar du det villkorsstyrda medelvärdet för numerisk kolumn.

  2. Korrelera kolumnen med villkorsstyrda medelvärden med den numeriska kolumnen.

Krav

  • Det går inte att generera en funktionsvalspoäng för någon kolumn som har angetts som en etikett eller poängkolumn .

  • Om du försöker använda en bedömningsmetod med en kolumn av en datatyp som metoden inte stöder, genererar komponenten ett fel. Eller så tilldelas en nollpoäng till kolumnen.

  • Om en kolumn innehåller logiska (true/false)-värden bearbetas de som True = 1 och False = 0.

  • En kolumn kan inte vara en funktion om den har angetts som en etikett eller en poäng.

Hur saknade värden hanteras

  • Du kan inte ange någon kolumn som innehåller alla värden som saknas som målkolumn (etikett).

  • Om en kolumn innehåller värden som saknas ignorerar komponenten dem när den beräknar poängen för kolumnen.

  • Om en kolumn som anges som en funktionskolumn har alla värden som saknas tilldelar komponenten noll poäng.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.