Functieselectie op basis van filters

Hiermee worden de functies in een gegevensset geïdentificeerd met de grootste voorspellende energie

Categorie: onderdelen selecteren modules

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module voor het selecteren van onderdelen op basis van Azure machine learning Studio (klassiek) gebruikt om de kolommen in de invoer-gegevensset te identificeren die de grootste voorspellende kracht hebben.

In het algemeen verwijst het selecteren van functies naar het proces van het Toep assen van statistische tests op invoer, op basis van een opgegeven uitvoer, om te bepalen welke kolommen meer voor spelling van de uitvoer zijn. De module voor het selecteren van functies op basis van filters bevat meerdere algoritmen voor het selecteren van onderdelen, inclusief correlatie methoden zoals Pearson of Kendall, wederzijdse informatie scores en Chi-kwadraat waarden. Azure Machine Learning biedt ook ondersteuning voor de functie waarde Count als indicator van de gegevens waarde.

Wanneer u de module voor het selecteren van functies op basis van filters gebruikt, geeft u een gegevensset op, identificeert u de kolom met het label of de afhankelijke variabele en geeft u vervolgens één methode op die moet worden gebruikt voor het meten van de functie urgentie.

De module levert een gegevensset die de beste functie kolommen bevat, zoals wordt aangegeven door voorspellende energie. Ook worden de namen van de functies en de scores van de geselecteerde metriek uitgevoerd.

Wat is selectie van functie op filter basis en waarom gebruiken?

Deze module voor het selecteren van functies wordt ' filter gebaseerd ' genoemd, omdat u de geselecteerde metrische gegevens gebruikt om irrelevante kenmerken te identificeren en overbodige kolommen uit uw model te filteren. U kiest één statistische maat eenheid die aansluit bij uw gegevens en de module berekent een score voor elke functie kolom. De kolommen worden weer gegeven op basis van hun functie scores.

Door de juiste functies te kiezen, kunt u de nauw keurigheid en efficiëntie van de classificatie verbeteren.

Normaal gesp roken gebruikt u alleen de kolommen met de beste scores om uw voorspellende model te bouwen. Kolommen met slechte onderdelen selectie scores kunnen in de gegevensset worden achtergelaten en worden genegeerd wanneer u een model bouwt.

De metriek van een functie selecteren

De functie selectie op basis van filters biedt diverse metrische gegevens voor het beoordelen van de informatie waarde in elke kolom. Deze sectie bevat een algemene beschrijving van elke metriek en hoe deze wordt toegepast. Aanvullende vereisten voor het gebruik van elke metriek worden vermeld in het gedeelte technische opmerkingen en in de instructies voor het configureren van elke module.

  • Pearson-correlatie

    Correlatie statistieken van Pearson of correlatie coëfficiënt van Pearson worden ook bekend in statistische modellen als de r waarde. Voor twee variabelen retourneert deze een waarde die de sterkte van de correlatie aangeeft

    De correlatie coëfficiënt van Pearson wordt berekend door de covariantie van twee variabelen te nemen en te delen door het product van de standaard afwijkingen. De coëfficiënt wordt niet beïnvloed door wijzigingen van de schaal in de twee variabelen.

  • Wederzijdse informatie

    De score voor wederzijdse informatie meet de bijdrage van een variabele om onzekerheid over de waarde van een andere variabele te beperken: namelijk het label. Veel variaties van de wederzijdse informatie Score zijn afgestemd op de verschillende distributies.

    De score voor wederzijdse informatie is bijzonder nuttig in functie selectie omdat hiermee de wederzijdse informatie wordt gemaximaliseerd tussen de gezamenlijke distributie en doel variabelen in gegevens sets met veel dimensies.

  • Kendall correlatie

    De positie correlatie van Kendall is een van de statistieken die de relatie tussen de classificatie van verschillende ordinale variabelen of verschillende positionering van dezelfde variabele meten. Met andere woorden, de IT-Service meet de gelijkenis van de rang schikkingen wanneer deze wordt gerangschikt op basis van de aantallen. Deze coëfficiënt en de correlatie coëfficiënt van de ' Spearman ' zijn ontworpen voor gebruik met niet-parametrische en niet-normaal gedistribueerde gegevens.

  • ' Spearman correlatie '

    De coëfficiënt van ' Spearman ' is een niet-parametrische meting van statistische afhankelijkheid tussen twee variabelen en wordt soms aangeduid met de Griekse letter Rho. De ' Spearman ' is de mate waarin twee variabelen gestaag zijn. Het wordt ook wel ' Spearman positie correlatie ' genoemd, omdat deze kan worden gebruikt met ordinale variabelen.

  • Chi-kwadraat

    De tweezijdige Chi-kwadraat test is een statistische methode waarmee wordt gemeten hoe het sluiten van verwachte waarden tot werkelijke resultaten leidt. De methode veronderstelt dat variabelen wille keurig zijn en worden getekend uit een adequaat voor beeld van onafhankelijke variabelen. Met de resulterende Chi-kwadraat statistiek wordt aangegeven hoe ver resultaten van het verwachte (wille keurig) resultaat zijn.

  • Fisher-Score

    De Fisher-Score (ook wel de Fisher-methode of Fisher-gecombineerde waarschijnlijkheids-kanss Score) wordt soms de informatie Score genoemd, omdat deze de hoeveelheid informatie vertegenwoordigt die een variabele bevat over een onbekende para meter waarvan deze afhankelijk is.

    De score wordt berekend door de afwijking te meten tussen de verwachte waarde van de gegevens en de waargenomen waarde. Wanneer de variantie is geminimaliseerd, wordt de informatie gemaximaliseerd. Aangezien de verwachting van de Score nul is, is de Fisher-informatie ook de variantie van de score.

  • Aantal op basis

    Het selecteren van functies op basis van een functie is een eenvoudige maar relatief krachtige manier om informatie over voor spellingen te vinden. Het basis idee onderliggende parametrisatie is eenvoudig: door het aantal afzonderlijke waarden in een kolom te berekenen, kunt u een idee krijgen van de verdeling en het gewicht van waarden, en hiervan begrijpt u welke kolommen de belangrijkste informatie bevatten.

    De functie selectie op basis van het aantal is een niet-super visie methode voor het selecteren van onderdelen, wat betekent dat u geen kolom Label nodig hebt. Met deze methode wordt ook de dimensionaliteit van de gegevens verminderd zonder dat er informatie verloren gaat.

    Zie Learning withcounts (Engelstalig) voor meer informatie over hoe functies op basis van het aantal worden gemaakt en waarom ze nuttig zijn in machine learning.

Tip

Als u een andere optie voor de selectie methode voor aangepaste functies nodig hebt, gebruikt u de module R-script uitvoeren .

Filter-Based functie selectie configureren

Deze module biedt twee methoden voor het bepalen van functie scores:

Functie scores genereren met behulp van een traditionele statistische metriek

  1. Voeg de functie selectie module voor het filteren van functies toe aan uw experiment. U kunt deze vinden in de categorie functie selectie in Studio (klassiek).

  2. Verbind een invoer-gegevensset die ten minste twee kolommen bevat die mogelijke functies zijn.

    Om ervoor te zorgen dat een kolom moet worden geanalyseerd en een gegenereerde functie Score, gebruikt u de module meta gegevens bewerken om het kenmerk IsFeature in te stellen.

    Belangrijk

    Zorg ervoor dat de kolommen die u opgeeft als invoer, mogelijke functies zijn. Een kolom met één waarde bevat bijvoorbeeld geen informatie waarde.

    Als u weet dat er kolommen zijn die onjuiste functies zouden kunnen vormen, kunt u ze uit de kolom selectie verwijderen. U kunt ook de module meta gegevens bewerken gebruiken om ze als categorischete markeren.

  3. Voor de functie Score methodekiest u een van de volgende statistische methoden die u kunt gebruiken bij het berekenen van scores.

    Methode Vereisten
    Pearson-correlatie Label kan tekst of numeriek zijn. De functies moeten numeriek zijn.
    Wederzijdse informatie Labels en functies kunnen tekst of numeriek zijn. Gebruik deze methode voor het berekenen van de functie prioriteit voor twee categorische-kolommen.
    Kendall correlatie Label kan tekst of numeriek zijn, maar de functies moeten numeriek zijn.
    ' Spearman correlatie ' Label kan tekst of numeriek zijn, maar de functies moeten numeriek zijn.
    Chi-kwadraat Labels en functies kunnen tekst of numeriek zijn. Gebruik deze methode voor het berekenen van de functie prioriteit voor twee categorische-kolommen.
    Fisher-Score Label kan tekst of numeriek zijn, maar de functies moeten numeriek zijn.
    Counts Raadpleeg: de selectie van Count-Based onderdelen gebruiken

    Tip

    Als u de geselecteerde metriek wijzigt, worden alle andere selecties opnieuw ingesteld. Zorg er dus voor dat u deze optie eerst instelt.)

  4. Selecteer de optie alleen werk kolommen gebruiken om een score te genereren voor de kolommen die eerder als functies zijn gemarkeerd.

    Als u deze optie uitschakelt, wordt door de module een score gemaakt voor elke kolom die anders aan de criteria voldoet, tot het aantal kolommen dat is opgegeven in het aantal gewenste functies.

  5. Klik bij doel kolomop starten kolom kiezer om de kolom label te kiezen op naam of op index (indexen zijn gebaseerd op één).

    Een label kolom is vereist voor alle methoden waarbij statistische correlatie is betrokken. De module retourneert een fout in de ontwerp fase als u geen label kolom of meerdere label kolommen selecteert.

  6. Voor het aantal gewenste functiestypt u het aantal functie kolommen dat als resultaat moet worden geretourneerd.

    • Het minimum aantal functies dat u kunt opgeven, is 1, maar we raden u aan deze waarde te verhogen.

    • Als het opgegeven aantal gewenste functies groter is dan het aantal kolommen in de gegevensset, worden alle functies geretourneerd, zelfs de onderdelen met een Score van nul.

    • Als u minder resultaat kolommen opgeeft dan er functie kolommen zijn, worden de functies gerangschikt op aflopende Score en worden alleen de belangrijkste functies geretourneerd.

  7. Voer het experiment uit of selecteer de module filteren op basis van de functie selectie en klik vervolgens op geselecteerde uitvoeren.

Resultaten van de functie selectie

Nadat de verwerking is voltooid:

  • Klik met de rechter muisknop op de module, selecteer onderdelenen klik op visualiserenvoor een volledige lijst met de geanalyseerde functie kolommen en de bijbehorende scores.

  • Als u de gegevensset wilt weer geven die is gegenereerd op basis van de selectie criteria van uw functie, klikt u met de rechter muisknop op de module, selecteert u gegevensseten klikt u op visualiseren.

Als de gegevensset minder kolommen bevat dan u had verwacht, controleert u de module-instellingen en de gegevens typen van de kolommen die zijn opgegeven als invoer. Als u bijvoorbeeld het aantal gewenste functies instelt op 1, bevat de uitvoer gegevensset slechts twee kolommen: de kolom Label en de meest gerangschikte functie kolom.

Functie selectie op basis van aantal gebruiken

  1. Voeg de functie selectie module voor het filteren van functies toe aan uw experiment. U kunt deze vinden in de lijst met modules in Studio (klassiek) in de groep functie selectie .

  2. Verbind een invoer-gegevensset die ten minste twee kolommen bevat die mogelijke functies zijn.

  3. Selecteer aantal op basis van de lijst met statistische methoden in de vervolg keuzelijst functie Score methode .

  4. Voor het minimum aantal elementen dat niet gelijkis aan nul, geeft u het minimum aantal functie kolommen op dat moet worden meegenomen in de uitvoer.

    De module voert standaard alle kolommen uit die voldoen aan de vereisten. De module kan geen kolommen uitvoeren die een Score van nul ophalen.

  5. Voer het experiment uit of selecteer alleen de module en klik op geselecteerde uitvoeren.

Resultaten van functies electie op basis van het aantal

  • Klik met de rechter muisknop op de module, selecteer onderdelenen klik op visualiseren om de lijst met functie kolommen met de scores weer te geven.
  • Als u de gegevensset met de geanalyseerde kolommen wilt zien, klikt u met de rechter muisknop op de module, selecteert u gegevensseten klikt u op visualiseren.

In tegens telling tot andere methoden rangschikt de methode op basis van de functie selectie de variabelen niet met de hoogste scores, maar worden alle variabelen met een score die niet gelijk is aan nul, in hun oorspronkelijke volg orde.

Teken reeks functies krijgen altijd een nul (0)-Score en zijn dus niet uitvoer.

Voorbeelden

Hier ziet u voor beelden van de manier waarop functies worden geselecteerd in de Azure AI Gallery:

  • Tekst classificatie; In de derde stap van dit voor beeld wordt de functie selectie op basis van filters gebruikt om de vijf tien beste functies te identificeren. Functie-hashing wordt gebruikt om de tekst documenten te converteren naar numerieke vectoren. De correlatie van Pearson wordt vervolgens gebruikt voor de vector functies.

  • Machine learning-functie selectie en functie techniek: in dit artikel vindt u een inleiding in het functie selectie-en functie-engineering in machine learning.

Zie tabel met scores vergelekenom voor beelden van functie scores te bekijken.

Technische opmerkingen

U kunt deze module vinden onder gegevens transformatiein de categorie filters .

Implementatie Details

Als u Pearson correlatie, Kendall correlatie of ' Spearman ' gebruikt voor een numerieke functie en een categorische-label, wordt de functie score als volgt berekend:

  1. Voor elk niveau in de kolom categorische berekent u het voorwaardelijke gemiddelde van de numerieke kolom.

  2. Correleer de kolom van voorwaardelijke middelen met de numerieke kolom.

Vereisten

  • Er kan geen score voor de functie selectie worden gegenereerd voor een kolom die is ingesteld als een Label of als een Score kolom.

  • Als u probeert een score methode te gebruiken met een kolom van een gegevens type dat niet door de methode wordt ondersteund, wordt een fout door de module gegenereerd of wordt er een nul-score toegewezen aan de kolom.

  • Als een kolom logische waarden (True/False) bevat, worden deze verwerkt als True = 1 en False = 0.

  • Een kolom kan geen functie zijn als deze is aangewezen als een Label of Score.

Hoe ontbrekende waarden worden verwerkt

  • U kunt geen doel kolom (label) opgeven voor elke kolom met alle ontbrekende waarden.

  • Als een kolom ontbrekende waarden bevat, worden deze genegeerd bij het berekenen van de score voor de kolom.

  • Als een kolom die is opgegeven als een functie kolom, alle ontbrekende waarden bevat, wordt een Score van nul toegewezen.

Tabel met scores vergeleken

Om u een idee te geven van de manier waarop de scores worden vergeleken wanneer verschillende metrische gegevens worden gebruikt, bevat de volgende tabel enkele onderdelen selectie scores van meerdere functies in de gegevensset auto Mobile-prijs, op basis van de afhankelijke variabele snelweg-MPG.

Functie kolom Pearson-Score Score tellen Kendall Score Wederzijdse informatie
highway-mpg 1 205 1 1
city-mpg 0,971337 205 0,892472 0,640386
curb-weight 0,797465 171 0,673447 0,326247
horsepower 0,770908 203 0,728289 0,448222
price 0,704692 201 0,651805 0,321788
lengte 0,704662205 205 0,53193 0,281317
engine-size 0,67747 205 0,581816 0,342399
breedte 0,677218 205 0,525585 0,285006
bore 0,594572 201 0,467345 0,263846
wheel-base 0,544082 205 0,407696 0,250641
compression-ratio 0,265201 205 0,337031 0,288459
brandstof systeem nb nb nb 0,308135
make nb nb nb 0,213872
Drive-wielen nb nb nb 0,213171
hoogte nb nb nb 0,1924
genormaliseerd-verliezen nb nb nb 0,181734
symboling nb nb nb 0,159521
aantal flessen nb nb nb 0,154731
Engine-type nb nb nb 0,135641
adem nb nb nb 0,068217
body-style nb nb nb 0,06369
brandstof type nb nb nb 0,049971
NUM-of-deuren nb nb nb 0,017459
Engine-locatie nb nb nb 0,010166
  • Er kunnen scores voor wederzijdse informatie worden gemaakt voor alle kolom typen, inclusief teken reeksen.

  • De andere scores die in deze tabel zijn opgenomen, zoals de correlatie of het aantal functies van Pearson, vereisen numerieke waarden. Teken reeks functies krijgen een Score van 0 en daarom niet opgenomen in de uitvoer. Zie de sectie technische opmerkingen voor uitzonde ringen.

  • De methode op basis van het aantal behandelt geen andere label kolom dan de functie kolommen.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Functie Score methode Lijst Score methode Kies de methode die u voor de score wilt gebruiken
Alleen voor functie kolommen gebruiken Alle Boolean-waarde true Geef aan of u alleen functie kolommen in het Score proces wilt gebruiken
Doel kolom Alle ColumnSelection Geen De doel kolom opgeven
Aantal gewenste functies >= 1 Geheel getal 1 Geef het aantal functies op dat in de resultaten moet worden uitgevoerd
Minimum aantal elementen dat niet gelijk is aan nul >= 1 Geheel getal 1 Geef het aantal functies op dat moet worden uitgevoerd (voor de methode CountBased)

Outputs

Naam Type Beschrijving
Gefilterde gegevensset Gegevens tabel Gefilterde gegevensset
Functies Gegevens tabel Namen van uitvoer kolommen en scores voor het selecteren van onderdelen

Uitzonderingen

Uitzondering Beschrijving
Fout 0001 Uitzonde ring treedt op als een of meer opgegeven kolommen met gegevensset niet zijn gevonden.
Fout 0003 Uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0004 Uitzonde ring treedt op als de para meter kleiner dan of gelijk aan een specifieke waarde is.
Fout 0017 Uitzonde ring treedt op als het type van een of meer opgegeven kolommen niet wordt ondersteund door de huidige module.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Functie selectie
Fisher-lineaire discriminant analyse
Module lijst a-Z