Functies selecteren in Team Data Science Process (TDSP)Feature selection in the Team Data Science Process (TDSP)

In dit artikel wordt het doel van de functie selectie beschreven en worden voor beelden gegeven van hun rol in het proces voor gegevens verbetering van machine learning.This article explains the purposes of feature selection and provides examples of its role in the data enhancement process of machine learning. Deze voor beelden worden uit Azure Machine Learning Studio opgehaald.These examples are drawn from Azure Machine Learning Studio.

De techniek en selectie van functies is een onderdeel van het team data Science process (TDSP), zoals beschreven in het artikel Wat is het proces voor team data Science?.The engineering and selection of features is one part of the Team Data Science Process (TDSP) outlined in the article What is the Team Data Science Process?. Functie techniek en selectie zijn onderdelen van de stap functies ontwikkelen van de TDSP.Feature engineering and selection are parts of the Develop features step of the TDSP.

  • functie techniek : dit proces probeert extra relevante functies te maken op basis van de bestaande onbewerkte functies in de gegevens en om de voorspellende stroom te verg Roten tot het leer algoritme.feature engineering : This process attempts to create additional relevant features from the existing raw features in the data, and to increase predictive power to the learning algorithm.
  • functie selectie : dit proces selecteert de sleutel subset van de oorspronkelijke gegevens functies in een poging om de dimensionaliteit van het trainings probleem te reduceren.feature selection : This process selects the key subset of original data features in an attempt to reduce the dimensionality of the training problem.

Normaal gesp roken functie techniek wordt eerst toegepast om extra functies te genereren, en vervolgens wordt de functie selectie stap uitgevoerd om irrelevante, redundante of zeer gecorreleerde functies te elimineren.Normally feature engineering is applied first to generate additional features, and then the feature selection step is performed to eliminate irrelevant, redundant, or highly correlated features.

Functies filteren vanuit de selectie van uw gegevens functieFilter features from your data - feature selection

Functie selectie kan worden gebruikt voor classificatie-of regressie taken.Feature selection may be used for classification or regression tasks. Het doel is om een subset van de functies te selecteren uit de oorspronkelijke gegevensset die de afmetingen reduceert door gebruik te maken van een minimale set functies om de maximale hoeveelheid afwijking in de gegevens weer te geven.The goal is to select a subset of the features from the original dataset that reduce its dimensions by using a minimal set of features to represent the maximum amount of variance in the data. Deze subset van functies wordt gebruikt om het model te trainen.This subset of features is used to train the model. Functies electie fungeert twee hoofd doelen.Feature selection serves two main purposes.

  • Eerst verhoogt de functie selectie vaak de classificatie nauw keurigheid door irrelevante, redundante of zeer gecorreleerde functies te elimineren.First, feature selection often increases classification accuracy by eliminating irrelevant, redundant, or highly correlated features.
  • Ten tweede vermindert het het aantal functies, waardoor het model trainings proces efficiënter wordt.Second, it decreases the number of features, which makes the model training process more efficient. Efficiëntie is belang rijk voor informatie die kostbaar is om te trainen, zoals vector machines voor ondersteuning.Efficiency is important for learners that are expensive to train such as support vector machines.

Hoewel de functie selectie het aantal functies in de gegevensset die wordt gebruikt om het model te trainen, beperkt, wordt er niet naar de term ' dimensionality reducation ' verwezen.Although feature selection does seek to reduce the number of features in the dataset used to train the model, it is not referred to by the term "dimensionality reduction". Met methoden voor het selecteren van functies wordt een subset van de oorspronkelijke functies in de gegevens geëxtraheerd zonder dat ze worden gewijzigd.Feature selection methods extract a subset of original features in the data without changing them. Reductie methoden voor dimensionaliteit gebruiken gewerkte functies waarmee de oorspronkelijke functies kunnen worden getransformeerd en gewijzigd.Dimensionality reduction methods employ engineered features that can transform the original features and thus modify them. Voor beelden van reductie methoden voor dimensionaliteit zijn Principal-onderdeel analyse, canonieke correlatie analyse en enkelvoudige waarde-ontleding.Examples of dimensionality reduction methods include Principal Component Analysis, canonical correlation analysis, and Singular Value Decomposition.

Onder andere wordt een categorie van de functie selectie methoden in een gecontroleerde context aangeduid met een op filters gebaseerde functie selectie.Among others, one widely applied category of feature selection methods in a supervised context is called "filter-based feature selection". Door de correlatie tussen elke functie en het doel kenmerk te evalueren, passen deze methoden een statistische meting toe om een score aan elke functie toe te wijzen.By evaluating the correlation between each feature and the target attribute, these methods apply a statistical measure to assign a score to each feature. De functies worden vervolgens gerangschikt op basis van de score, die kan worden gebruikt om de drempel waarde in te stellen voor het bewaren of elimineren van een specifieke functie.The features are then ranked by the score, which may be used to help set the threshold for keeping or eliminating a specific feature. Voor beelden van statistische metingen die worden gebruikt in deze methoden zijn correlatie, wederzijdse informatie en de Chi-kwadraat test.Examples of the statistical measures used in these methods include Person correlation, mutual information, and the Chi squared test.

In Azure Machine Learning Studio zijn er modules beschikbaar voor functie selectie.In Azure Machine Learning Studio, there are modules provided for feature selection. Zoals u kunt zien in de volgende afbeelding, bevatten deze modules op filters gebaseerde functies electie en Fisher lineaire discriminant analyse.As shown in the following figure, these modules include Filter-Based Feature Selection and Fisher Linear Discriminant Analysis.

Modules voor functie selectie

Denk bijvoorbeeld aan het gebruik van de functie selectie module op basis van filter .Consider, for example, the use of the Filter-Based Feature Selection module. Voor het gemak gaat u verder met het voor beeld van tekst analyse.For convenience, continue using the text mining example. Stel dat u een regressie model wilt maken nadat een set van 256-functies zijn gemaakt via de module hashing-functie , en dat de reactie variabele de ' Kol1 ' is die de Score van het boek beoordeling van 1 tot 5 bevat.Assume that you want to build a regression model after a set of 256 features are created through the Feature Hashing module, and that the response variable is the "Col1" that contains book review ratings ranging from 1 to 5. Door ' functie Score methode ' in te stellen als ' Pearson-correlatie ', ' doel kolom ' in ' Kol1 ' en ' aantal gewenste functies ' op 50.By setting "Feature scoring method" to be "Pearson Correlation", the "Target column" to be "Col1", and the "Number of desired features" to 50. Vervolgens geeft de functie selectie op basis van module filter een gegevensset met 50-functies samen met het doel kenmerk ' Kol1 '.Then the module Filter-Based Feature Selection produces a dataset containing 50 features together with the target attribute "Col1". In de volgende afbeelding ziet u de stroom van dit experiment en de invoer parameters:The following figure shows the flow of this experiment and the input parameters:

Eigenschappen van module functie selectie Filter-Based

In de volgende afbeelding ziet u de resulterende gegevens sets:The following figure shows the resulting datasets:

Resulterende gegevensset voor de functie selectie module op basis van filter

Elke functie wordt beoordeeld op basis van de correlatie tussen de Pearson en het doel kenmerk ' Kol1 '.Each feature is scored based on the Pearson Correlation between itself and the target attribute "Col1". De functies met de hoogste scores worden bewaard.The features with top scores are kept.

De bijbehorende scores van de geselecteerde functies worden weer gegeven in de volgende afbeelding:The corresponding scores of the selected features are shown in the following figure:

Scores voor de functie selectie module op basis van filter

Als u deze functie voor het filteren op basis van filtering toepast, zijn er 50 van de 256-functies geselecteerd, omdat ze de meest gerelateerde functies hebben met de doel variabele Kol1, op basis van de Score methode Pearson correlatie.By applying this Filter-Based Feature Selection module, 50 out of 256 features are selected because they have the most correlated features with the target variable "Col1", based on the scoring method "Pearson Correlation".

ConclusieConclusion

Functie techniek en functie selectie zijn twee vaak ontworpen en geselecteerde functies verhogen de efficiëntie van het trainings proces dat probeert de belang rijke informatie uit de gegevens op te halen.Feature engineering and feature selection are two commonly Engineered and selected features increase the efficiency of the training process that attempts to extract the key information contained in the data. Ze verbeteren ook de kracht van deze modellen om de invoer gegevens nauw keurig te classificeren en om de resultaten betrouwbaarder te voors pellen.They also improve the power of these models to classify the input data accurately and to predict outcomes of interest more robustly. Functie techniek en selectie kunnen ook worden gecombineerd om het leren van de reken kracht te maken.Feature engineering and selection can also combine to make the learning more computationally tractable. Dit doet u door het aantal functies te verhogen en te verminderen dat nodig is voor het kalibreren of trainen van een model.It does so by enhancing and then reducing the number of features needed to calibrate or train a model. Mathematische spraak: de functies die zijn geselecteerd om het model te trainen, zijn een minimale set onafhankelijke variabelen waarmee de patronen in de gegevens worden uitgelegd en die vervolgens kunnen worden voor speld.Mathematically speaking, the features selected to train the model are a minimal set of independent variables that explain the patterns in the data and then predict outcomes successfully.

Het is niet altijd nood zakelijk om functie-engineering of functie selectie uit te voeren.It is not always necessarily to perform feature engineering or feature selection. Of het nodig is of niet afhankelijk is van de verzamelde gegevens, de geselecteerde algoritme en het doel van het experiment.Whether it is needed or not depends on the data collected, the algorithm selected, and the objective of the experiment.