Modules voor functie selectie

In dit artikel worden de modules in Azure Machine Learning Studio (klassiek) beschreven die u voor het selecteren van functies kunt gebruiken.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

De functie selectie is een belang rijk hulp middel in machine learning. Machine Learning Studio (klassiek) biedt meerdere methoden voor het uitvoeren van functie selectie. Kies een methode voor het selecteren van functies op basis van het type gegevens dat u hebt, en de vereisten van de statistische techniek die wordt toegepast.

In dit artikel komen de volgende onderwerpen aan bod:

Elke module voor het selecteren van onderdelen in Machine Learning Studio (klassiek) gebruikt een gegevensset als invoer. Vervolgens past de module bekende statistische methoden toe op de gegevens kolommen die worden opgegeven als invoer. De uitvoer is een verzameling metrische gegevens die u kan helpen bij het identificeren van de kolommen met de beste gegevens waarde.

Over functie selectie

In machine learning en statistieken is de functie selectie het proces van het selecteren van een subset van relevante, nuttige functies om te gebruiken bij het bouwen van een analytisch model. De functie selectie helpt u bij het beperken van het gegevens veld tot de meest waardevolle invoer. Het beperken van het gegevens veld helpt ruis te verminderen en de prestaties van de training te verbeteren.

Vaak worden functies gemaakt op basis van onbewerkte gegevens via een proces van functie techniek. Het is bijvoorbeeld mogelijk dat een tijds tempel in zichzelf niet nuttig is voor model lering totdat de gegevens worden omgezet in eenheden van dagen, maanden of categorieën die relevant zijn voor het probleem, zoals de feestdag en werkdag.

Nieuwe gebruikers van machine learning kunnen worden geraden om alle beschik bare gegevens te bevatten. Ze kunnen verwachten dat het algoritme iets interessants vindt door meer gegevens te gebruiken. Het is echter mogelijk dat het model in functie selectie doorgaans wordt verbeterd en dat veelvoorkomende problemen worden voor komen:

  • De gegevens bevatten redundante of irrelevante functies, die geen meer informatie bieden dan de momenteel geselecteerde onderdelen.
  • De gegevens bevatten irrelevante functies die geen nuttige informatie bevatten in een wille keurige context. Met inbegrip van irrelevante velden neemt de benodigde tijd voor het trainen van de gegevens niet toe, maar kan ook leiden tot slechte resultaten.
  • Met enkele algoritmen, die dubbele informatie bevatten in de trainings gegevens, kunnen leiden tot een probleem met de naam multicollinearity. In multicollinearity kan de aanwezigheid van twee uiterst gecorreleerde variabelen ertoe leiden dat de berekeningen voor andere variabelen veel minder nauw keurig worden.

Tip

Sommige machine learning-algoritmen in Machine Learning Studio (klassiek) maken ook gebruik van functie selectie of 3D-reductie als onderdeel van het trainings proces. Wanneer u deze kennissen gebruikt, kunt u het functie selectie proces overs Laan en het algoritme de beste invoer laten bepalen.

Functie selectie in een experiment gebruiken

Functie selectie wordt doorgaans uitgevoerd wanneer u gegevens bekijkt en een nieuw model ontwikkelt. Houd bij het gebruik van de functie selectie de volgende tips in acht:

  • Bij het testen voegt u functie selectie toe aan uw experiment om scores te genereren die uw beslissing over welke kolommen moeten worden gebruikt.
  • Verwijder de functie selectie uit het experiment wanneer u een model operationeel maken.
  • Voer regel matig de functies electie uit om ervoor te zorgen dat de gegevens en de beste functies niet zijn gewijzigd.

Functies electie wijkt af van feature engineering, die gericht is op het maken van nieuwe functies uit bestaande gegevens.

Resources

Functie selectie methoden in Machine Learning Studio (klassiek)

De volgende onderdelen van de functie selectie zijn opgenomen in Machine Learning Studio (klassiek).

Functieselectie op basis van filters

Wanneer u de module voor het selecteren van functies op basis van filters gebruikt, kunt u kiezen uit kenmerkende selectie methoden. De module levert de statistieken van de functie selectie en de gefilterde gegevensset.

De keuze van een methode voor filters electie is afhankelijk van de sorteer volgorde van invoer gegevens die u hebt.

Methode Ondersteunde functie-invoer Ondersteunde labels
Correlatie van Pearson Alleen numerieke en logische kolommen Een enkele numerieke of logische kolom
Score voor wederzijdse informatie Alle gegevens typen Eén kolom van elk gegevens type
Correlatie coëfficiënt van Kendall Alleen numerieke en logische kolommen Een enkele numerieke of logische kolom

Kolommen moeten waarden bevatten die kunnen worden gerangschikt
Correlatie coëfficiënt van Spearman Alleen numerieke en logische kolommen Een enkele numerieke of logische kolom
Chi-kwadraat statistiek Alle gegevens typen Eén kolom van elk gegevens type
Fisher-Score Alleen numerieke en logische kolommen Een enkele numerieke of logische kolom

Aan teken reeks kolommen wordt een Score van 0 toegewezen
Functie selectie op basis van aantal Alle gegevens typen Een label kolom is niet vereist

Fisher-lineaire discriminant analyse

Lineaire analyse van Discriminant is een leer techniek met toezicht die u kunt gebruiken om numerieke variabelen in combi natie met één categorische doel te classificeren. De methode is handig voor het selecteren van onderdelen, omdat deze de combi natie van functies of para meters identificeert die de groepen het best scheiden.

U kunt de module Fisher lineaire discriminant analyse gebruiken om een set scores voor beoordeling te genereren, of u kunt de vervangende gegevensset gebruiken die door de module wordt gegenereerd voor de training.

Belang van permutatiefunctie

Gebruik de functie urgentie van permutatie om het effect van een set functies op uw gegevensset te simuleren. De module berekent prestatie scores voor een model op basis van wille keurige volg orde van functie waarden.

De scores die de module retourneert, vertegenwoordigen de mogelijke wijziging in de nauw keurigheid van een getraind model als waarden worden gewijzigd. U kunt de scores gebruiken om het effect van afzonderlijke variabelen in het model te bepalen.

Machine learning-algoritmen die de functie selectie bevatten

Sommige machine learning-algoritmen in Machine Learning Studio (klassiek) optimaliseren functie selectie tijdens de training. Ze kunnen ook para meters bieden die u helpen bij het selecteren van functies. Als u een methode gebruikt die een eigen heuristiek heeft voor het kiezen van functies, is het vaak beter om te vertrouwen op die heuristiek in plaats van voorgeselecteerde functies.

Deze algoritmen en functie selectie methoden worden intern gebruikt:

  • Versterkte beslissings structuur modellen voor classificatie en regressie

    In deze modules wordt een functie overzicht intern gemaakt. Functies met een gewicht van 0 worden niet gebruikt door boom splitsen. Wanneer u het beste getrainde model visualiseren, kunt u de verschillende structuren bekijken. Als een functie nooit in een structuur wordt gebruikt, is de functie waarschijnlijk een kandidaat voor verwijdering. Als u de selectie wilt optimaliseren, is het ook een goed idee om het opruimen van de para meters te gebruiken.

  • Logistiek regressie modellen en lineaire modellen

    De modules voor multi klasse en binaire logistieke regressie ondersteuning L1 en L2-regularisatie. Regularisatie is een manier om beperkingen toe te voegen tijdens de training om hand matig een aspect van het geleerde model op te geven. Regularisatie wordt doorgaans gebruikt om overmontage te voor komen. Machine Learning Studio (klassiek) ondersteunt regularisatie voor de L1-of L2-normen van de gewichts vector in lineaire classificatie algoritmen:

    • L1 regularisatie is handig als het doel heeft om een model te hebben dat zo verspreid mogelijk is.
    • Met L2-regularisatie wordt voor komen dat één coördinaat in de gewichts vector te veel in omvang groeit. Het is handig als het doel een model met een klein geheel gewicht heeft.
    • L1-normale logistiek regressie is agressief voor het toewijzen van een gewicht van 0 aan functies. Het is handig bij het identificeren van functies die kunnen worden verwijderd.

Technische opmerkingen

Alle onderdelen selectie modules en analyse methoden die ondersteuning bieden voor numerieke en logische kolommen, bieden ook ondersteuning voor de kolommen datum en tijd. Deze kolommen worden behandeld als eenvoudige numerieke kolommen waarin elke waarde gelijk is aan het aantal maat streepjes.

De volgende modules bevinden zich niet in de categorie onderdelen selectie , maar u kunt deze gebruiken voor gerelateerde taken. De modules kunnen u helpen de dimensionaliteit van uw gegevens te reduceren of correlaties te vinden:

Als u een gegevensset hebt met veel kolommen, gebruikt u de module Principal component Analysis om de kolommen te detecteren die de meeste informatie over de oorspronkelijke gegevens bevatten.

Deze module bevindt zich in de categorie gegevens transformatie , onder schalen en verminderen.

Parametrisatie op basis van het aantal is een nieuwe techniek die u kunt gebruiken om nuttige functies te bepalen met behulp van grote gegevens sets. Gebruik deze modules voor het analyseren van gegevens sets om de beste functies te vinden, een aantal functies op te slaan die moeten worden gebruikt met nieuwe gegevens of een bestaande functieset bij te werken.

Gebruik deze module om een set Pearson-correlatie coëfficiënten te berekenen voor elk mogelijke paar variabelen in de invoer gegevensset. De correlatie coëfficiënt van Pearson, ook wel de R-test van Pearson genoemd, is een statistische waarde die de lineaire relatie tussen twee variabelen meet.

Deze module bevindt zich in de categorie statistische functies .

Lijst met modules

De categorie voor de functie selectie omvat deze modules:

  • Functies selecteren op basis van filters: Hiermee worden de functies in een gegevensset geïdentificeerd die de grootste voorspellende energie hebben.
  • Fisher lineaire discriminant analyse: identificeert de lineaire combi natie van functie variabelen waarmee u de beste gegevens kunt groeperen in afzonderlijke klassen.
  • Permutatie functie urgentie: berekent de permutatie functie prioriteits scores van functie variabelen voor een getraind model en een test gegevensset.

Zie ook