Beskärningsvärden

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd komponenten Clip Values för att identifiera och eventuellt ersätta datavärden som ligger över eller under ett angivet tröskelvärde med ett medelvärde, en konstant eller ett annat ersättningsvärde.

Du ansluter komponenten till en datauppsättning som har de tal som du vill klippa ut, väljer de kolumner som ska användas och anger sedan ett tröskelvärde eller intervall med värden och en ersättningsmetod. Komponenten kan antingen bara mata ut resultatet eller de ändrade värden som läggs till i den ursprungliga datauppsättningen.

Så här konfigurerar du Clip-värden

Innan du börjar ska du identifiera de kolumner som du vill klippa ut och vilken metod som ska användas. Vi rekommenderar att du testar alla klippningsmetoder på en liten delmängd av data först.

Komponenten tillämpar samma villkor och ersättningsmetod på alla kolumner som du inkluderar i markeringen. Se därför till att exkludera kolumner som du inte vill ändra.

Om du behöver använda klippningsmetoder eller olika kriterier för vissa kolumner måste du använda en ny instans av Clip Values för varje uppsättning liknande kolumner.

  1. Lägg till komponenten Clip Values i pipelinen och anslut den till den datauppsättning som du vill ändra. Du hittar den här komponenten under Datatransformering i kategorin Skala och Minska .

  2. I Lista över kolumner använder du kolumnväljaren för att välja de kolumner som Clip Values ska tillämpas på.

  3. För Uppsättning med tröskelvärden väljer du något av följande alternativ i listrutan. De här alternativen avgör hur du anger de övre och nedre gränserna för godkända värden jämfört med värden som måste klipps av.

    • ClipPeaks: När du klipper värden efter toppar anger du bara en övre gräns. Värden som är större än gränsvärdet ersätts.

    • ClipSubpeaks: När du klipper värden med underordnad text anger du bara en lägre gräns. Värden som är mindre än gränsvärdet ersätts.

    • ClipPeaksAndSubpeaks: När du klipper värden efter toppar och underpeaks kan du ange både de övre och nedre gränserna. Värden som ligger utanför intervallet ersätts. Värden som matchar gränsvärdena ändras inte.

  4. Beroende på ditt val i föregående steg kan du ange följande tröskelvärden:

    • Lägre tröskelvärde: Visas endast om du väljer ClipSubPeaks
    • Övre tröskelvärde: Visas endast om du väljer ClipPeaks
    • Tröskelvärde: Visas endast om du väljer ClipPeaksAndSubPeaks

    För varje tröskelvärdestyp väljer du antingen Konstant eller Percentil.

  5. Om du väljer Konstant skriver du det högsta eller lägsta värdet i textrutan. Anta till exempel att du vet att värdet 999 användes som platshållarvärde. Du kan välja Konstant för det övre tröskelvärdet och skriva 999 i Konstant värde för övre tröskelvärde.

  6. Om du väljer Percentil begränsar du kolumnvärdena till ett percentilintervall.

    Anta till exempel att du bara vill behålla värdena i percentilintervallet 10–80 och ersätta alla andra. Du väljer Percentil och skriver sedan 10 för Percentilvärde för lägre tröskelvärde och skriver 80 som Percentilvärde för övre tröskelvärde.

    Se avsnittet om percentiler för några exempel på hur du använder percentilintervall.

  7. Definiera ett ersättningsvärde.

    Tal som exakt matchar de gränser som du har angett anses ligga inom det tillåtna värdeintervallet och ersätts därför inte. Alla tal som faller utanför det angivna intervallet ersätts med ersättningsvärdet.

    • Ersättningsvärde för toppar: Definierar värdet för att ersätta alla kolumnvärden som är större än det angivna tröskelvärdet.
    • Ersättningsvärde för underavsnitt: Definierar det värde som ska användas som ersättning för alla kolumnvärden som är mindre än det angivna tröskelvärdet.
    • Om du använder alternativet ClipPeaksAndSubpeaks kan du ange separata ersättningsvärden för de övre och nedre klippta värdena.

    Följande ersättningsvärden stöds:

    • Tröskelvärde: Ersätter klippta värden med det angivna tröskelvärdet.

    • Medelvärde: Ersätter klippta värden med medelvärdet av kolumnvärdena. Medelvärdet beräknas innan värdena klipps av.

    • Median: Ersätter klippta värden med medianvärdet för kolumnvärdena. Medianvärdet beräknas innan värdena klipps av.

    • Saknas. Ersätter klippta värden med det saknade (tomma) värdet.

  8. Lägg till indikatorkolumner: Välj det här alternativet om du vill generera en ny kolumn som anger om den angivna urklippsåtgärden som tillämpas på data på den raden eller inte. Det här alternativet är användbart när du testar en ny uppsättning klippnings- och ersättningsvärden.

  9. Skriv över flagga: Ange hur du vill att de nya värdena ska genereras. Som standard konstruerar Clip Values en ny kolumn med de högsta värdena klippt till det önskade tröskelvärdet. Nya värden skriver över den ursprungliga kolumnen.

    Om du vill behålla den ursprungliga kolumnen och lägga till en ny kolumn med de klippta värdena avmarkerar du det här alternativet.

  10. Skicka pipelinen.

    Högerklicka på komponenten Clip Values (Clip Values ) och välj Visualisera eller välj komponenten och växla till fliken Utdata i den högra panelen, klicka på histogramikonen i Portutdata för att granska värdena och kontrollera att urklippsåtgärden uppfyller dina förväntningar.

Exempel på klippning med percentiler

För att förstå hur klippning efter percentiler fungerar kan du överväga en datauppsättning med 10 rader, som har en instans var och en av värdena 1–10.

  • Om du använder percentilen som övre tröskelvärde vid värdet för den 90:e percentilen måste 90 procent av alla värden i datamängden vara mindre än det värdet.

  • Om du använder percentilen som det lägre tröskelvärdet vid värdet för den tionde percentilen måste 10 procent av alla värden i datauppsättningen vara mindre än det värdet.

  1. För Uppsättning med tröskelvärden väljer du ClipPeaksAndSubPeaks.

  2. För Övre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 90.

  3. För Övre ersättningsvärde väljer du Värde saknas.

  4. För Lägre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 10.

  5. För Lägre ersättningsvärde väljer du Saknat värde.

  6. Avmarkera alternativet Skriv över flagga och välj alternativet Lägg till indikatorkolumn.

Prova nu samma pipeline med 60 som övre percentiltröskel och 30 som tröskelvärde för den lägre percentilen och använd tröskelvärdet som ersättningsvärde. I följande tabell jämförs dessa två resultat:

  1. Ersätt med saknas; Övre tröskelvärde = 90; Lägre tröskelvärde = 20

  2. Ersätt med tröskelvärde; Övre percentil = 60; Lägre percentil = 40

Ursprungliga data Ersätt med saknas Ersätt med tröskelvärde
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSKT

4, FALSKT

5, FALSKT

6, FALSKT

7, FALSKT

8, FALSKT

9, FALSKT

TRUE
4, SANT

4, SANT

4, SANT

4, SANT

5, FALSKT

6, FALSKT

7, SANT

7, SANT

7, SANT

7, SANT

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.