Modules voor functieselectie

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel worden de modules in Machine Learning Studio (klassiek) beschreven die u kunt gebruiken voor het selecteren van functies.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Functieselectie is een belangrijk hulpprogramma in machine learning. Machine Learning Studio (klassiek) biedt meerdere methoden voor het selecteren van functies. Kies een functieselectiemethode op basis van het type gegevens dat u hebt en de vereisten van de statistische techniek die wordt toegepast.

In dit artikel wordt het volgende beschreven:

Wat is functieselectie?
Functieselectiemodules in Machine Learning
Functieselectie gebruiken
Algoritmen die functieselectie bevatten

Elke functieselectiemodule in Machine Learning Studio (klassiek) gebruikt een gegevensset als invoer. Vervolgens past de module bekende statistische methoden toe op de gegevenskolommen die als invoer worden opgegeven. De uitvoer is een set metrische gegevens die u kunnen helpen bij het identificeren van de kolommen die de beste informatiewaarde hebben.

Over functieselectie

In machine learning en statistieken is functieselectie het selecteren van een subset van relevante, nuttige functies die u kunt gebruiken bij het bouwen van een analytisch model. Met functieselectie kunt u het gegevensveld beperken tot de meest waardevolle invoer. Het beperken van het gegevensveld helpt ruis te verminderen en de trainingsprestaties te verbeteren.

Vaak worden functies gemaakt op basis van onbewerkte gegevens via een proces van feature engineering. Een tijdstempel op zichzelf is bijvoorbeeld mogelijk niet nuttig voor het modelleren totdat de informatie wordt omgezet in eenheden van dagen, maanden of categorieën die relevant zijn voor het probleem, zoals vakantie versus werkdag.

Nieuwe gebruikers van machine learning misschien geneigd om alle beschikbare gegevens op te nemen. Ze kunnen verwachten dat het algoritme iets interessants vindt door meer gegevens te gebruiken. Functieselectie kan uw model echter meestal verbeteren en veelvoorkomende problemen voorkomen:

De gegevens bevatten redundante of irrelevante functies, die niet meer informatie bieden dan de momenteel geselecteerde functies.
De gegevens bevatten irrelevante functies die in geen enkele context nuttige informatie bieden. Door irrelevante velden op te nemen, neemt niet alleen de tijd die nodig is om de gegevens te trainen toe, maar kan dit ook leiden tot slechte resultaten.
Bij sommige algoritmen kan dubbele informatie in de trainingsgegevens leiden tot een verschijnsel met de naam multicollineariteit. In multicollineariteit kan de aanwezigheid van twee sterk gecorreleerde variabelen ertoe leiden dat de berekeningen voor andere variabelen veel minder nauwkeurig worden.

Tip

Sommige machine learning algoritmen in Machine Learning Studio (klassiek) gebruiken ook functieselectie of dimensionaliteitsvermindering als onderdeel van het trainingsproces. Wanneer u deze studenten gebruikt, kunt u het selectieproces voor functies overslaan en het algoritme de beste invoer laten bepalen.

Functieselectie gebruiken in een experiment

Functieselectie wordt doorgaans uitgevoerd wanneer u gegevens verkent en een nieuw model ontwikkelt. Houd rekening met deze tips wanneer u functieselectie gebruikt:

Voeg tijdens het testen functieselectie toe aan uw experiment om scores te genereren die u informeren over welke kolommen u wilt gebruiken.
Verwijder functieselectie uit het experiment wanneer u een model operationeel maakt.
Voer de functieselectie periodiek uit om ervoor te zorgen dat de gegevens en de beste functies niet zijn gewijzigd.

Functieselectie verschilt van feature engineering, die zich richt op het maken van nieuwe functies op basis van bestaande gegevens.

Resources

Zie Feature engineering in data science (Functie-engineering in gegevenswetenschap) voor een bespreking van de verschillende manieren waarop u functies kunt ontwerpen of de beste functies kunt selecteren als onderdeel van het data science-proces.
Zie Functies uit uw gegevens filteren - Functieselectie voor een overzicht van de selectie van functies in het data science-proces.

Functieselectiemethoden in Machine Learning Studio (klassiek)

De volgende functieselectiemodules zijn beschikbaar in Machine Learning Studio (klassiek).

Functieselectie op basis van filters

Wanneer u de module Filter Based Feature Selection gebruikt , kunt u kiezen uit bekende methoden voor het selecteren van functies. De module geeft zowel de functieselectiestatistieken als de gefilterde gegevensset weer.

Uw keuze voor een filterselectiemethode is deels afhankelijk van het type invoergegevens dat u hebt.

Methode	Ondersteunde functie-invoer	Ondersteunde labels
Pearson's correlatie	Alleen numerieke en logische kolommen	Eén numerieke of logische kolom
Wederzijdse informatiescore	Alle gegevenstypen	Eén kolom van een gegevenstype
De correlatiecoëfficiënt van Kendall	Alleen numerieke en logische kolommen	Eén numerieke of logische kolom Kolommen moeten waarden hebben die kunnen worden geclassificeerd
Spearman's correlatiecoëfficiënt	Alleen numerieke en logische kolommen	Eén numerieke of logische kolom
Chi-kwadraatstatistiek	Alle gegevenstypen	Eén kolom van een gegevenstype
Score van Dek	Alleen numerieke en logische kolommen	Eén numerieke of logische kolom Aan tekenreekskolommen wordt een score van 0 toegewezen
Functieselectie op basis van aantal	Alle gegevenstypen	Een labelkolom is niet vereist

Fisher Linear Discriminant Analysis

Linear Discriminant Analysis is een leertechniek onder supervisie die u kunt gebruiken om numerieke variabelen te classificeren in combinatie met één categorisch doel. De methode is handig voor het selecteren van functies, omdat deze de combinatie van functies of parameters identificeert die de groepen het beste van elkaar scheiden.

U kunt de module Linear Discriminant Analysis gebruiken om een reeks scores te genereren voor beoordeling, of u kunt de vervangende gegevensset gebruiken die door de module wordt gegenereerd voor training.

Belang van permutatiefunctie

Gebruik de module Belang van permutatiefunctie om het effect van een set functies op uw gegevensset te simuleren. De module berekent prestatiescores voor een model op basis van willekeurige shuffling van functiewaarden.

De scores die de module retourneert, vertegenwoordigen de mogelijke wijziging in de nauwkeurigheid van een getraind model als de waarden veranderen. U kunt de scores gebruiken om het effect van afzonderlijke variabelen op het model te bepalen.

Machine learning-algoritmen die functieselectie bevatten

Sommige machine learning in Machine Learning Studio (klassiek) optimaliseren de functieselectie tijdens de training. Ze kunnen ook parameters bieden die helpen bij het selecteren van functies. Als u een methode gebruikt die een eigen heuristiek heeft voor het kiezen van functies, is het vaak beter om te vertrouwen op die heuristiek in plaats van functies vooraf te selecteren.

Deze algoritmen en functieselectiemethoden worden intern gebruikt:

Boosted Decision Tree-modellen voor classificatie en regressie

In deze modules wordt intern een functieoverzicht gemaakt. Functies met een gewicht van 0 worden niet gebruikt door structuursplitsingen. Wanneer u het best getrainde model visualiseert, kunt u elk van de boomen bekijken. Als een functie nooit in een structuur wordt gebruikt, is de functie waarschijnlijk een kandidaat voor verwijdering. Om de selectie te optimaliseren, is het ook een goed idee om parameterparameters te gebruiken.
Logistieke regressiemodellen en lineaire modellen

De modules voor multiklasse en binaire logistieke regressie ondersteunen L1- en L2-regularisatie. Regularisatie is een manier om beperkingen toe te voegen tijdens de training om handmatig een aspect van het geleerde model op te geven. Regularisatie wordt doorgaans gebruikt om overfitting te voorkomen. Machine Learning Studio (klassiek) ondersteunt regularisatie voor de L1- of L2-norm van de gewichtsvector in algoritmen voor lineaire classificatie:
- L1-regularisatie is handig als het doel is om een model te hebben dat zo verspreid mogelijk is.
- L2-regularisatie voorkomt dat één coördinaat in de gewichtsvector te veel groeit. Het is handig als het doel is om een model met kleine algemene gewichten te hebben.
- Ge regulariseerde logistieke regressie met L1 is agressiever bij het toewijzen van een gewicht van 0 aan functies. Dit is handig bij het identificeren van functies die kunnen worden verwijderd.

Technische opmerkingen

Alle functieselectiemodules en analytische methoden die ondersteuning bieden voor numerieke en logische kolommen bieden ook ondersteuning voor datum/tijd- en tijdspankolommen. Deze kolommen worden behandeld als eenvoudige numerieke kolommen waarin elke waarde gelijk is aan het aantal tikken.

De volgende modules zijn niet in de categorie Functieselectie , maar u kunt ze wel gebruiken voor gerelateerde taken. De modules kunnen u helpen de dimensionaliteit van uw gegevens te verminderen of correlaties te vinden:

Analyse van hoofdcomponenten

Als u een gegevensset met veel kolommen hebt, gebruikt u de module Analyse van principal-onderdelen om de kolommen te detecteren die de meeste informatie over de oorspronkelijke gegevens bevatten.

Deze module maakt deel uit van de categorie Gegevenstransformatie , onder Schaal en Verminderen.

Learning met counts

Op aantallen gebaseerde featurization is een nieuwe techniek die u kunt gebruiken om nuttige functies te bepalen met behulp van grote gegevenssets. Gebruik deze modules om gegevenssets te analyseren om de beste functies te vinden, een set functies op te slaan voor gebruik met nieuwe gegevens of een bestaande functieset bij te werken.

Lineaire correlatie berekenen

Gebruik deze module om een set Pearson-correlatiecoëfficiënten te berekenen voor elk mogelijk paar variabelen in de invoerset. De Pearson-correlatiecoëfficiënt, ook wel de R-test van Pearson genoemd, is een statistische waarde die de lineaire relatie tussen twee variabelen meet.

Deze module maakt deel uit van de categorie Statistische functies.

Lijst met modules

De categorie Functieselectie bevat de volgende modules:

Functieselectie op basis van filters: identificeert de functies in een gegevensset met de grootste voorspellende kracht.
Linear Linear Discriminant Analysis: Identificeert de lineaire combinatie van functievariabelen waarmee gegevens in afzonderlijke klassen kunnen worden gegroepeerd.
Belang van permutatiefunctie: Berekent de belangrijkheidsscores van de permutatiefunctie van functievariabelen voor een getraind model en test gegevensset.

Zie ook

Modulecategorieën en beschrijvingen