Functieselectie op basis van filters

In dit artikel wordt beschreven hoe u het onderdeel Functieselectie op basis van filters gebruikt in Azure Machine Learning designer. Dit onderdeel helpt u bij het identificeren van de kolommen in uw invoergegevensset met de grootste voorspellende kracht.

Over het algemeen verwijst de functieselectie naar het proces voor het toepassen van statistische tests op invoer, op basis van een opgegeven uitvoer. Het doel is om te bepalen welke kolommen meer voorspellend zijn voor de uitvoer. Het onderdeel Functieselectie op basis van filters biedt meerdere functieselectiealgoritmen waaruit u kunt kiezen. Het onderdeel bevat correlatiemethoden zoals Pearson-correlatie en chi-kwadratische waarden.

Wanneer u het onderdeel Functieselectie op basis van filters gebruikt, geeft u een gegevensset op en identificeert u de kolom die het label of de afhankelijke variabele bevat. Vervolgens geeft u één methode op die moet worden gebruikt bij het meten van functiebelang.

Het onderdeel voert een gegevensset uit die de beste functiekolommen bevat, zoals gerangschikt op voorspellende kracht. Ook worden de namen van de functies en de scores van de geselecteerde metrische gegevens uitgevoerd.

Welke functieselectie op basis van filters is

Dit onderdeel voor functieselectie wordt 'filtergebasd' genoemd, omdat u de geselecteerde metrische waarde gebruikt om irrelevante kenmerken te vinden. Vervolgens filtert u redundante kolommen uit uw model. U kiest één statistische meting die bij uw gegevens past en het onderdeel berekent een score voor elke functiekolom. De kolommen worden geretourneerd op basis van hun functiescores.

Door de juiste functies te kiezen, kunt u de nauwkeurigheid en efficiëntie van classificatie mogelijk verbeteren.

Doorgaans gebruikt u alleen de kolommen met de beste scores om uw voorspellende model te bouwen. Kolommen met slechte functieselectiescores kunnen worden achtergelaten in de gegevensset en worden genegeerd wanneer u een model bouwt.

Een metrische functieselectie kiezen

Het onderdeel Filter-Based Functieselectie biedt verschillende metrische gegevens voor het beoordelen van de informatiewaarde in elke kolom. Deze sectie bevat een algemene beschrijving van elke metrische waarde en hoe deze wordt toegepast. U vindt aanvullende vereisten voor het gebruik van elke metrische waarde in de technische notities en in de instructies voor het configureren van elk onderdeel.

  • Pearson-correlatie

    Pearsons correlatiestatistiek, of pearsons correlatiecoëfficiënt, staat ook bekend in statistische modellen als de r waarde. Voor twee variabelen wordt een waarde geretourneerd die de sterkte van de correlatie aangeeft.

    De correlatiecoëfficiënt van Pearson wordt berekend door de covariantie van twee variabelen te nemen en te delen door het product van hun standaarddeviaties. Wijzigingen in de schaal in de twee variabelen hebben geen invloed op de coëfficiënt.

  • Chi kwadraat

    De tweerichtingstest met chi-kwadraat is een statistische methode waarmee wordt gemeten hoe dicht verwachte waarden bij de werkelijke resultaten liggen. Bij de methode wordt ervan uitgegaan dat variabelen willekeurig zijn en afkomstig zijn van een adequate steekproef van onafhankelijke variabelen. De resulterende chi-kwadraatstatistiek geeft aan hoe ver de resultaten zijn van het verwachte (willekeurige) resultaat.

Tip

Als u een andere optie nodig hebt voor de aangepaste functieselectiemethode, gebruikt u het onderdeel R-script uitvoeren .

Filter-Based functieselectie configureren

U kiest een standaard statistische metrische waarde. Het onderdeel berekent de correlatie tussen een paar kolommen: de labelkolom en een functiekolom.

  1. Voeg het onderdeel Filter-Based Functieselectie toe aan uw pijplijn. U vindt deze in de categorie Functieselectie in de ontwerpfunctie.

  2. Verbinding maken een invoergegevensset die ten minste twee kolommen bevat die mogelijke functies zijn.

    Als u ervoor wilt zorgen dat een kolom wordt geanalyseerd en er een functiescore wordt gegenereerd, gebruikt u het onderdeel Metagegevens bewerken om het kenmerk IsFeature in te stellen.

    Belangrijk

    Zorg ervoor dat de kolommen die u als invoer oplevert, potentiële functies zijn. Een kolom met één waarde heeft bijvoorbeeld geen informatiewaarde.

    Als u weet dat sommige kolommen ongeldige functies zouden maken, kunt u deze verwijderen uit de kolomselectie. U kunt ook het onderdeel Metagegevens bewerken gebruiken om deze als categorisch te markeren.

  3. Kies voor functiescoremethode een van de volgende vastgestelde statistische methoden die moeten worden gebruikt bij het berekenen van scores.

    Methode Vereisten
    Pearson-correlatie Label kan tekst of numeriek zijn. Functies moeten numeriek zijn.
    Chi kwadraat Labels en functies kunnen tekst of numeriek zijn. Gebruik deze methode voor het berekenen van functiebelang voor twee categorische kolommen.

    Tip

    Als u de geselecteerde metrische waarde wijzigt, worden alle andere selecties opnieuw ingesteld. Zorg er dus voor dat u deze optie eerst instelt.

  4. Selecteer de optie Werken op functiekolommen om alleen een score te genereren voor kolommen die eerder als functies zijn gemarkeerd.

    Als u deze optie uitschakelt, maakt het onderdeel een score voor een kolom die anders voldoet aan de criteria, tot het aantal kolommen dat is opgegeven in het aantal gewenste functies.

  5. Selecteer voor de doelkolom de selector Kolom starten om de labelkolom op naam of op de index te kiezen. (Indexen zijn één gebaseerd.)
    Een labelkolom is vereist voor alle methoden waarvoor statistische correlatie is vereist. Het onderdeel retourneert een ontwerptijdfout als u geen labelkolom of meerdere labelkolommen kiest.

  6. Voer voor het aantal gewenste functies het aantal functiekolommen in dat u als resultaat wilt geven:

    • Het minimale aantal functies dat u kunt opgeven, is één, maar we raden u aan deze waarde te verhogen.

    • Als het opgegeven aantal gewenste functies groter is dan het aantal kolommen in de gegevensset, worden alle functies geretourneerd. Zelfs functies met nul scores worden geretourneerd.

    • Als u minder resultaatkolommen opgeeft dan er functiekolommen zijn, worden de functies gerangschikt op aflopende score. Alleen de belangrijkste functies worden geretourneerd.

  7. Verzend de pijplijn.

Belangrijk

Als u selectie van op filters gebaseerde functieselectie wilt gebruiken, moet u Transformatie kolommen selecteren gebruiken om het geselecteerde resultaat op te slaan en Transformatie toepassen om de geselecteerde transformatie van de functie toe te passen op de scoregegevensset.

Raadpleeg de volgende schermopname om uw pijplijn te bouwen, om ervoor te zorgen dat kolomselecties hetzelfde zijn voor het scoreproces.

Sample pipeline

Resultaten

Nadat de verwerking is voltooid:

  • Als u een volledige lijst met de geanalyseerde functiekolommen en de bijbehorende scores wilt zien, klikt u met de rechtermuisknop op het onderdeel en selecteert u Visualiseren.

  • Als u de gegevensset wilt weergeven op basis van uw selectiecriteria voor functies, klikt u met de rechtermuisknop op het onderdeel en selecteert u Visualiseren.

Als de gegevensset minder kolommen bevat dan verwacht, controleert u de onderdeelinstellingen. Controleer ook de gegevenstypen van de kolommen die zijn opgegeven als invoer. Als u bijvoorbeeld het aantal gewenste functies instelt op 1, bevat de uitvoergegevensset slechts twee kolommen: de labelkolom en de meest gerangschikte functiekolom.

Technische opmerkingen

Implementatiegegevens

Als u Pearson-correlatie gebruikt voor een numerieke functie en een categorisch label, wordt de functiescore als volgt berekend:

  1. Voor elk niveau in de categorische kolom berekent u het voorwaardelijke gemiddelde van de numerieke kolom.

  2. De kolom met voorwaardelijke middelen correleren met de numerieke kolom.

Vereisten

  • Een functieselectiescore kan niet worden gegenereerd voor een kolom die is aangewezen als een label - of scorekolom .

  • Als u een scoremethode probeert te gebruiken met een kolom van een gegevenstype dat niet door de methode wordt ondersteund, treedt er een fout op in het onderdeel. Of een nulscore wordt toegewezen aan de kolom.

  • Als een kolom logische waarden (waar/onwaar) bevat, worden deze verwerkt als True = 1 en False = 0.

  • Een kolom kan geen functie zijn als deze is aangewezen als label of score.

Hoe ontbrekende waarden worden verwerkt

  • U kunt geen kolom opgeven als doelkolom (label) met alle ontbrekende waarden.

  • Als een kolom ontbrekende waarden bevat, negeert het onderdeel deze wanneer de score voor de kolom wordt gecomputt.

  • Als een kolom die is aangewezen als een functiekolom alle ontbrekende waarden bevat, wijst het onderdeel een nulscore toe.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.