Beskärningsvärden

Identifierar avvikande värden och klipp eller ersätter deras värden

Kategori: Datatransformering/skala och minska

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra och släpp-moduler har lagts till i Azure Machine Learning designer. Läs mer i den här artikeln om att jämföra de två versionerna.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Clip Values i Azure Machine Learning Studio (klassisk) för att identifiera och eventuellt ersätta datavärden som är över eller under ett angivet tröskelvärde. Detta är användbart när du vill ta bort avvikande värden eller ersätta dem med ett medelvärde, en konstant eller ett annat ersättningsvärde.

Du ansluter modulen till en datauppsättning som har de tal som du vill klippa, väljer de kolumner som ska användas med och anger sedan ett tröskelvärde eller intervall med värden och en ersättningsmetod. Modulen kan mata ut antingen bara resultaten eller de ändrade värdena som läggs till i den ursprungliga datauppsättningen.

Så här konfigurerar du clip-värden

Innan du börjar ska du identifiera de kolumner som du vill klippa och vilken metod som ska användas. Vi rekommenderar att du testar alla cklippningsmetod på en liten delmängd data först.

Modulen använder samma kriterier och ersättningsmetod för alla kolumner som du inkluderar i valet. Se därför till att undanta kolumner som du inte vill ändra.

Om du behöver använda cklippningsmetoder eller olika kriterier för vissa kolumner måste du använda en ny instans av Clip Values för varje uppsättning liknande kolumner.

  1. Lägg till modulen Clip Values (Clip Values) i experimentet och anslut den till den datauppsättning som du vill ändra. Du hittar den här modulen under Datatransformering i kategorin Skala och Minska.

  2. I Lista över kolumner använder du kolumnväljaren för att välja de kolumner som Clip-värden ska tillämpas på.

  3. För Uppsättning tröskelvärden väljer du något av följande alternativ i listrutan. De här alternativen avgör hur du ställer in de övre och nedre gränserna för godkända värden jämfört med värden som måste vara urklippta.

    • ClipPeaks: När du klipper ut värden efter toppar anger du bara en övre gräns. Värden som är större än gränsvärdet ersätts eller tas bort.

    • ClipSubpeaks: När du klipper ut värden efter underordnade toppar anger du bara en lägre gräns. Värden som är mindre än gränsvärdet ersätts eller tas bort.

    • ClipPeaksAndSubpeaks: När du klipper ut värden efter toppar och underordnade toppar kan du ange både den övre och den lägre gränsen. Värden som är utanför det intervallet ersätts eller tas bort. Värden som matchar gränsvärdena ändras inte.

  4. Beroende på ditt val i föregående steg kan du ange följande tröskelvärden:

    • Lägre tröskelvärde: Visas bara om du väljer ClipSubPeaks
    • Övre tröskelvärde: Visas bara om du väljer ClipPeaks
    • Tröskelvärde: Visas bara om du väljer ClipPeaksAndSubPeaks

    För varje tröskelvärdestyp väljer du antingen Konstant eller Percentil.

  5. Om du väljer Konstant anger du det högsta eller lägsta värdet i textrutan. Anta till exempel att du vet att värdet 999 användes som platshållarvärde. Du kan välja Konstant för det övre tröskelvärdet och skriva 999 i Konstantvärde för det övre tröskelvärdet.

  6. Om du väljer Percentil begränsar du kolumnvärdena till ett percentilintervall.

    Anta till exempel att du bara vill behålla värdena i intervallet 10–80 percentil och ersätta alla andra. Du väljer Percentil och skriver sedan 10 för Percentilvärdet med lägre tröskelvärde och skriver 80 som Percentilvärde för det övre tröskelvärdet.

    I avsnittet om percentiler finns några exempel på hur du använder percentilintervall.

  7. Definiera ett ersättningsvärde.

    Tal som exakt matchar de gränser som du nyss angav anses vara inom det tillåtna värdeintervallet och ersätts eller tas därför inte bort. Alla tal som faller utanför det angivna intervallet ersätts med det ersatta värdet.

    • Ersättningsvärde för toppar: Definierar det värde som ska ersättas med alla kolumnvärden som är större än det angivna tröskelvärdet.
    • Ersättningsvärde för subpeaks: Definierar det värde som ska användas som en ersättning för alla kolumnvärden som är mindre än det angivna tröskelvärdet.
    • Om du använder alternativet ClipPeaksAndSubpeaks kan du ange separata ersättningsvärden för de övre och nedre urklippta värdena.

    Följande ersättningsvärden stöds:

    • Tröskelvärde: Ersätter urklippta värden med det angivna tröskelvärdet.

    • Medelvärde: Ersätter urklippta värden med medelvärdet för kolumnvärdena. Medelvärdet beräknas innan värdena klipps.

    • Median: Ersätter urklippta värden med medianvärdet för kolumnvärdena. Medianvärdet beräknas innan värdena klipps.

    • Saknas. Ersätter urklippta värden med det saknade (tomma) värdet.

  8. Lägg till indikatorkolumner: Välj det här alternativet om du vill generera en ny kolumn som anger om den angivna cklippåtgärden som tillämpas på data på den raden eller inte. Det här alternativet är särskilt användbart när du testar en ny uppsättning cklippnings- och ersättningsvärden.

  9. Overwrite flag(Överskrivningsflagga): Ange hur du vill att de nya värdena ska genereras. Som standard skapar Clip Values en ny kolumn med de högsta värdena klippt till önskat tröskelvärde. Nya värden skriver över den ursprungliga kolumnen.

    Om du vill behålla den ursprungliga kolumnen och lägga till en ny kolumn med de urklippta värdena avmarkerar du det här alternativet.

  10. Kör experimentet.

    Högerklicka på utdata för modulen Clip Values (Clip Values) och välj Visualize (Visualisera) för att granska värdena och se till att urklippsåtgärden uppfyllde dina förväntningar.

Exempel

Information om hur den här modulen används i maskininlärningsexperiment finns i Azure AI Gallery:

  • Extremvärden för skogsbrand:Det här exemplet från EdX-couse i data science demonstrerar avklippta metoder med hjälp av exempeldatamängden Forest Fires.

Avklipp med percentiler

För att förstå hur urklippning efter percentiler fungerar kan du överväga en datauppsättning med 10 rader, som har en instans av var och en av värdena 1–10.

  • Om du använder percentil som övre tröskelvärde vid värdet för den 90:e percentilen måste 90 procent av alla värden i datauppsättningen vara mindre än det värdet.

  • Om du använder percentilen som det lägre tröskelvärdet vid värdet för den 10:e percentilen måste 10 procent av alla värden i datauppsättningen vara mindre än det värdet.

  1. För Uppsättning tröskelvärden väljer du ClipPeaksAndSubPeaks.

  2. För Övre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 90.

  3. För Upper substitute value (Övre ersättningsvärde) väljer du Missing Value (Värde saknas).

  4. För Lägre tröskelvärde väljer du Percentil och i Percentilnummer skriver du 10.

  5. För Lägre ersättningsvärde väljer du Värde saknas.

  6. Avmarkera alternativet Overwrite flag (Overwrite flag) och välj alternativet Add indicator column (Lägg till indikatorkolumn).

Prova nu samma experiment med 60 som övre percentiltröskel och 30 som det lägre tröskelvärdet för percentilen och använd tröskelvärdet som ersättningsvärde. I följande tabell jämförs dessa två resultat:

  1. Ersätt med saknas; Övre tröskelvärde = 90; Lägre tröskelvärde = 10

  2. Ersätt med threshold; Övre percentil = 60; Lägre percentil = 30

Ursprungliga data Ersätt med saknas Ersätt med tröskelvärde
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Teknisk information

  • Du kan bara använda Clip Values (Clip-värden) på kolumner som innehåller tal eller datum/tid-värden.

  • Om du inkluderar kolumner som har text eller kategoriska data hoppas kolumnerna över.

  • Saknade värden ignoreras när medelvärdet eller medianvärdet beräknas för en kolumn.

  • Clip Values stöder inte ordningstalsdata.

  • Saknade värden ändras inte när de sprids till utdatauppsättningen. Kolumnen som anger urklippta värden innehåller alltid FALSE för saknade värden.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Indatauppsättning

Modulparametrar

Name Intervall Typ Standardvärde Description
Lägga till indikatorkolumner TRUE/FALSE Boolesk FALSE Om du vill lägga till indikator för urklippning av ett värde görs
Konstant värde för lägre tröskelvärde valfri Float -1 Värdet nedan som undertalen ska klippas ned
Konstant värde för övre tröskelvärde valfri Float 1 Värde över vilket topparna klipps
Konstant värde för lägre tröskelvärde valfri Float -1 Det värde under vilket undertalen klipps ned
Konstant värde för övre tröskelvärde >=1 Float 1 Värde över vilket topparna klipps
Lista över kolumner ColumnSelection Lista över kolumner som ska klipps ut
Lägre ersättningsvärde Tröskelvärde

Medelvärde

Median

Saknas
SubstituteValues Tröskelvärde Värdet som används för cpeak subpeaks
Lägre tröskelvärde Konstant

Percentil
Tröskelläge Konstant Värdet under vilket undertalen kommer att vara urklippt läge
Overwrite flag (Överskrivningsflagga) TRUE/FALSE Boolesk TRUE Om urklippta datakolumner måste skriva över indatakolumner
Percentilnummer för lägre tröskelvärde [1;99] Integer 1 Percentiltal under vilket undertalen klipps
Percentilnummer för det övre tröskelvärdet [1;99] Integer 99 Percentilnummer över vilket topparna klipps
Percentilantal för lägre tröskelvärde [1;99] Integer 1 Percentiltal under vilket undertalen klipps
Percentilantal för övre tröskelvärde [1;99] Integer 99 Percentilnummer över vilket topparna klipps
Uppsättning tröskelvärden ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Tröskeluppsättning ClipPeaks Anger vilken typ av tröskelvärde som ska användas
Ersätt värdet för toppar Tröskelvärde

Medelvärde

Median

Saknas
SubstituteValues Tröskelvärde Det värde som används vid urklippsstoppar
Ersätt värdet för subpeaks Tröskelvärde

Medelvärde

Median

Saknas
SubstituteValues Tröskelvärde Värdet som används vid cpeak subpeaks
Tröskelvärde Konstant

Percentil
Tröskelläge Konstant Värde över och under vilket topparna kommer att vara urklippt läge
Övre ersättningsvärde Tröskelvärde

Medelvärde

Median

Saknas
Tröskelvärde Tröskelvärde Värdet som används för c peaks (klippor)
Övre tröskelvärde Konstant

Percentil
Tröskelläge Konstant Värde över vilket topparna kommer att vara urklippt läge

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Datauppsättning med urklippta kolumner

Undantag

Undantag Description
Fel 0011 Undantaget inträffar om kolumnuppsättningsargumentet som skickas inte gäller för någon av datauppsättningskolumnerna.
Fel 0017 Undantaget inträffar om en eller flera angivna kolumner har typen stöds inte av den aktuella modulen.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Skala och minska
A-Z-modullista