Waarden inperken

Detecteert uitbijters en clips of vervangt hun waarden

Categorie: gegevens transformeren/schalen en verminderen

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module clip values in azure machine learning Studio (klassiek) gebruikt om gegevens waarden te identificeren en optioneel te vervangen die boven of onder een bepaalde drempel waarde vallen. Dit is handig wanneer u uitbijters wilt verwijderen of ze wilt vervangen door een gemiddelde, een constante of een andere vervangende waarde.

U koppelt de module aan een gegevensset met de getallen die u wilt knippen. Kies de kolommen waarmee u wilt werken en stel vervolgens een drempel waarde of waardebereik in en een vervangings methode. De module kan alleen de resultaten uitvoeren, of de gewijzigde waarden die zijn toegevoegd aan de oorspronkelijke gegevensset.

Clip waarden configureren

Voordat u begint, identificeert u de kolommen die u wilt knippen en de methode die u wilt gebruiken. Het is raadzaam om eerst alle knip methoden te testen op een kleine subset van gegevens.

De module past dezelfde criteria en vervangende methode toe op alle kolommen die u in de selectie opneemt. Zorg er daarom voor dat u kolommen uitsluit die u niet wilt wijzigen.

Als u knip methoden of andere criteria op sommige kolommen wilt Toep assen, moet u een nieuw exemplaar van de clip waarden voor elke set vergelijk bare kolommen gebruiken.

  1. Voeg de module clip values toe aan uw experiment en verbind deze met de gegevensset die u wilt wijzigen. U kunt deze module vinden onder gegevens transformatie, in de categorie schalen en verminderen .

  2. Gebruik in de lijst met kolommende kolom kiezer om de kolommen te kiezen waarop clip waarden worden toegepast.

  3. Kies een van de volgende opties in de vervolg keuzelijst om drempel waardenin te stellen. Deze opties bepalen hoe u de boven-en ondergrens instelt voor acceptabele waarden versus waarden die moeten worden afgekapt.

    • ClipPeaks: wanneer u waarden bijsnijden op pieken, geeft u alleen een bovenste grens op. Waarden die groter zijn dan die grens waarde, worden vervangen of verwijderd.

    • ClipSubpeaks: wanneer u waarden bijsnijden op subpieken, geeft u slechts een ondergrens op. Waarden die kleiner zijn dan die grens waarde, worden vervangen of verwijderd.

    • ClipPeaksAndSubpeaks: wanneer u waarden bijsnijden met pieken en subpieken, kunt u zowel de boven-als de onderste grenzen opgeven. Waarden die buiten het bereik vallen, worden vervangen of verwijderd. Waarden die overeenkomen met de grens waarden worden niet gewijzigd.

  4. Afhankelijk van uw selectie in de vorige stap, kunt u de volgende drempel waarden instellen:

    • Onderste drempel waarde: alleen weer gegeven als u ClipSubPeaks hebt gekozen
    • Hoogste drempel waarde: alleen weer gegeven als u ClipPeaks hebt gekozen
    • Drempel waarde: alleen weer gegeven als u ClipPeaksAndSubPeaks hebt gekozen

    Kies voor elk type drempel een constante of een percentiel.

  5. Als u constantselecteert, typt u de maximum-of minimum waarde in het tekstvak. Stel dat u weet dat de waarde 999 is gebruikt als een tijdelijke aanduiding. U kunt een constante kiezen voor de bovenste drempel waarde en het type 999 in constante waarden van de bovengrens.

  6. Als u percentielkiest, beperkt u de kolom waarden tot een percentiel bereik.

    Stel bijvoorbeeld dat u alleen de waarden in het bereik van 10-80 percentiel wilt blijven gebruiken en alle andere wilt vervangen. Kies percentielen typ vervolgens 10 voor percentiel waarde onderste drempelen typ 80 voor de percentiel waarde van de bovengrens.

    Zie de sectie over percentielen voor een aantal voor beelden van het gebruik van percentiel bereiken.

  7. Definieer een vervangende waarde.

    Getallen die exact overeenkomen met de grenzen die u zojuist hebt opgegeven, worden beschouwd als binnen het toegestane bereik van waarden en worden dus niet vervangen of verwijderd. Alle getallen die buiten het opgegeven bereik vallen, worden vervangen door de vervangende waarde.

    • Vervang waarde voor pieken: definieert de waarde die moet worden vervangen voor alle kolom waarden die groter zijn dan de opgegeven drempel.
    • Vervang waarde voor subpieken: definieert de waarde die moet worden gebruikt als vervanging voor alle kolom waarden die kleiner zijn dan de opgegeven drempel.
    • Als u de optie ClipPeaksAndSubpeaks gebruikt, kunt u afzonderlijke vervangings waarden opgeven voor de waarden voor boven en onder afgekapt.

    De volgende vervangings waarden worden ondersteund:

    • Drempelwaarde: Hiermee worden afgekapte waarden vervangen door de opgegeven drempel waarde.

    • Gemiddelde: Hiermee worden afgekapte waarden vervangen door het gemiddelde van de kolom waarden. Het gemiddelde wordt berekend voordat waarden worden afgekapt.

    • Mediaan: Hiermee worden afgekapte waarden vervangen door de mediaan van de kolom waarden. De mediaan wordt berekend voordat waarden worden afgekapt.

    • Ontbrekend. Hiermee worden afgekapte waarden vervangen door de ontbrekende (lege) waarde.

  8. Indicator kolommen toevoegen: Selecteer deze optie als u een nieuwe kolom wilt genereren die aangeeft of de opgegeven knip bewerking moet worden toegepast op de gegevens in die rij. Deze optie is vooral handig bij het testen van een nieuwe set met knip-en vervangings waarden.

  9. Vlag voor overschrijven: Geef aan hoe u de nieuwe waarden wilt genereren. Standaard maken clip waarden een nieuwe kolom met de piek waarden die zijn afgekapt tot de gewenste drempel waarde. Nieuwe waarden overschrijven de oorspronkelijke kolom.

    Als u de oorspronkelijke kolom wilt hand haven en een nieuwe kolom met de afgekapte waarden wilt toevoegen, schakelt u deze optie uit.

  10. Voer het experiment uit.

    Klik met de rechter muisknop op de uitvoer van de module voor clip waarden en selecteer visualiseren om de waarden te controleren en ervoor te zorgen dat de knip bewerking aan uw verwachtingen voldoet.

Voorbeelden

Als u wilt zien hoe deze module wordt gebruikt in machine learning experimenten, raadpleegt u de Azure AI Gallery:

  • Fire-uitbijtersvan het forest: in dit voor beeld van de EdX couse in data Science worden knip methoden gedemonstreerd met behulp van de voor beeld-gegevensset Fire.

Knippen met behulp van percentielen

Als u wilt weten hoe knippen door percentielen werkt, kunt u een gegevensset met 10 rijen gebruiken die één exemplaar hebben elk van de waarden 1-10.

  • Als u percentiel als de bovenste drempel waarde gebruikt, wordt voor het negen tigste percentiel 90 procent van alle waarden in de gegevensset kleiner dan die waarde.

  • Als u percentiel als de laagste drempel waarde gebruikt, op het tiende percentiel, moet 10 procent van alle waarden in de gegevensset kleiner zijn dan die waarde.

  1. Kies ClipPeaksAndSubPeaksvoor set met drempel waarden.

  2. Voor bovenste drempel waardekiest u percentielen voor percentiel nummer, typt u 90.

  3. Kies ontbrekende waardevoor bovenste vervangende waarde.

  4. Voor een lagere drempel waardekiest u percentielen voor percentiel nummer, type 10.

  5. Kies ontbrekende waardevoor lagere vervangende waarde.

  6. Schakel de optie overschrijvings vlaguit en selecteer de optie de kolom indicator toevoegen.

Probeer nu hetzelfde experiment met 60 als de bovenste percentiel drempel en 30 als de laagste percentiel drempel en gebruik de drempel waarde als de vervangings waarde. De volgende tabel vergelijkt deze twee resultaten:

  1. Vervangen door ontbreekt; Bovenste drempel waarde = 90; Laagste drempel waarde = 10

  2. Vervangen door drempel waarde; Bovenste percentiel = 60; Onderste percentiel = 30

Oorspronkelijke gegevens Vervangen door ontbrekende Vervangen door drempel waarde
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, ONWAAR

4, ONWAAR

5, ONWAAR

6, ONWAAR

7, ONWAAR

8, ONWAAR

9, ONWAAR

TRUE
4, WAAR

4, WAAR

4, WAAR

4, WAAR

5, ONWAAR

6, ONWAAR

7, WAAR

7, WAAR

7, WAAR

7, WAAR

Technische opmerkingen

  • U kunt alleen clip waarden gebruiken voor kolommen die getallen of datum/tijd-waarden bevatten.

  • Als u kolommen met tekst-of categorische-gegevens opneemt, worden de kolommen overgeslagen.

  • Ontbrekende waarden worden genegeerd wanneer de gemiddelde of mediaan waarde voor een kolom wordt berekend.

  • Clip waarden bieden geen ondersteuning voor ordinale gegevens.

  • Ontbrekende waarden worden niet gewijzigd wanneer ze worden door gegeven aan de uitvoer gegevensset. De kolom die de afgekapte waarden aangeeft, bevat altijd de waarde FALSE voor ontbrekende waarden.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Indicator kolommen toevoegen WAAR/ONWAAR Boolean-waarde FALSE Hiermee wordt aangegeven of er een indicator moet worden toegevoegd voor het knippen van een waarde.
Constante waarde voor onderste drempel alle Drijvendekommagetal -1 De waarde waaronder de subpieken worden afgekapt
Constante waarde voor bovengrens alle Drijvendekommagetal 1 De waarde waarboven de pieken worden afgekapt
Constante waarde van onderste drempel alle Drijvendekommagetal -1 De waarde waaronder de subpieken worden afgekapt
Constante waarde van bovenste drempelwaarde >= 1 Drijvendekommagetal 1 De waarde waarboven de pieken worden afgekapt
Lijst met kolommen ColumnSelection Lijst met kolommen die moeten worden gefragmenteerd
Lagere vervangings waarde Drempelwaarde

Gemiddeld

Mediaan

Ongeldige
SubstituteValues Drempelwaarde De waarde die wordt gebruikt voor het knippen van subpieken
Onderste drempel Constant

Percentiel
Drempel modus Constant De waarde waaronder de subpieken worden afgekapt
Vlag overschrijven WAAR/ONWAAR Boolean-waarde TRUE Of de kolom (men) van de gegevens invoer moet worden overschreven
Percentiel nummer voor onderste drempel waarde [1; 99] Geheel getal 1 Het percentiel nummer waaronder de subpieken worden afgekapt
Percentiel nummer voor hoogste drempel waarde [1; 99] Geheel getal 99 Percentiel nummer waarboven de pieken worden afgekapt
Percentiel nummer van onderste drempel waarde [1; 99] Geheel getal 1 Het percentiel nummer waaronder de subpieken worden afgekapt
Percentiel aantal bovenste drempel waarde [1; 99] Geheel getal 99 Percentiel nummer waarboven de pieken worden afgekapt
Set met drempel waarden ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Drempel waarde is ingesteld ClipPeaks Hiermee wordt het type drempel waarde opgegeven dat moet worden gebruikt
Vervangende waarde voor pieken Drempelwaarde

Gemiddeld

Mediaan

Ongeldige
SubstituteValues Drempelwaarde De waarde die wordt gebruikt tijdens het knippen van pieken
Vervangende waarde voor subpieken Drempelwaarde

Gemiddeld

Mediaan

Ongeldige
SubstituteValues Drempelwaarde De waarde die wordt gebruikt tijdens het knippen van subpieken
Drempelwaarde Constant

Percentiel
Drempel modus Constant De waarde boven en onder waarvan de pieken worden afgekapt
Bovenste vervangings waarde Drempelwaarde

Gemiddeld

Mediaan

Ongeldige
Drempelwaarde Drempelwaarde De waarde die wordt gebruikt voor het knippen van pieken
Bovenste drempel waarde Constant

Percentiel
Drempel modus Constant De waarde waarboven de pieken worden afgekapt

Outputs

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gegevensset met afgekapte kolommen

Uitzonderingen

Uitzondering Beschrijving
Fout 0011 Uitzonde ring treedt op als door gegeven kolom set argument niet van toepassing is op een van de gegevensset-kolommen.
Fout 0017 Uitzonde ring treedt op als het type van een of meer opgegeven kolommen niet wordt ondersteund door de huidige module.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Schalen en verminderen
Module lijst a-Z