Rensa komponenten Data som saknas

Artikel
06/01/2023

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att ta bort, ersätta eller härleda saknade värden.

Dataexperter söker ofta efter saknade värden och utför sedan olika åtgärder för att åtgärda data eller infoga nya värden. Målet med sådana rensningsåtgärder är att förhindra problem som orsakas av saknade data som kan uppstå vid träning av en modell.

Den här komponenten stöder flera typer av åtgärder för "rensning" av saknade värden, inklusive:

Ersätta saknade värden med en platshållare, medelvärde eller annat värde
Ta bort rader och kolumner som saknar värden helt
Härledningsvärden baserade på statistiska metoder

Om du använder den här komponenten ändras inte källdatauppsättningen. I stället skapas en ny datauppsättning på din arbetsyta som du kan använda i det efterföljande arbetsflödet. Du kan också spara den nya, rensade datauppsättningen för återanvändning.

Den här komponenten matar också ut en definition av omvandlingen som används för att rensa de saknade värdena. Du kan återanvända den här omvandlingen på andra datauppsättningar som har samma schema med hjälp av komponenten Tillämpa transformering .

Så här använder du Rensa data som saknas

Med den här komponenten kan du definiera en rensningsåtgärd. Du kan också spara rensningsåtgärden så att du kan tillämpa den senare på nya data. Se följande avsnitt om hur du skapar och sparar en rensningsprocess:

Så här ersätter du saknade värden
Tillämpa en rensningstransformering på nya data

Viktigt

Rensningsmetoden som du använder för att hantera saknade värden kan avsevärt påverka dina resultat. Vi rekommenderar att du experimenterar med olika metoder. Överväg både motiveringen för användning av en viss metod och kvaliteten på resultaten.

Ersätt saknade värden

Varje gång du tillämpar komponenten Rensa data som saknas på en uppsättning data tillämpas samma rensningsåtgärd på alla kolumner som du väljer. Om du behöver rensa olika kolumner med olika metoder använder du därför separata instanser av komponenten.

Lägg till komponenten Rensa saknade data i pipelinen och anslut den datauppsättning som saknar värden.
För Kolumner som ska rensas väljer du de kolumner som innehåller de saknade värden som du vill ändra. Du kan välja flera kolumner, men du måste använda samma ersättningsmetod i alla valda kolumner. Därför behöver du vanligtvis rensa strängkolumner och numeriska kolumner separat.

Om du till exempel vill söka efter saknade värden i alla numeriska kolumner:
1. Välj komponenten Rensa data som saknas och klicka på Redigera kolumn i komponentens högra panel.
2. För Inkludera väljer du Kolumntyper i listrutan och väljer sedan Numeriskt.
Alla rensnings- eller ersättningsmetoder som du väljer måste gälla för alla kolumner i markeringen. Om data i en kolumn inte är kompatibla med den angivna åtgärden returnerar komponenten ett fel och stoppar pipelinen.
För Minsta saknade värde-förhållande anger du det minsta antalet saknade värden som krävs för den åtgärd som ska utföras.

Du använder det här alternativet i kombination med maximalt värde som saknas för att definiera de villkor under vilka en rensningsåtgärd utförs på datauppsättningen. Om det finns för många eller för få rader som saknar värden kan åtgärden inte utföras.

Talet du anger representerar förhållandet mellan saknade värden och alla värden i kolumnen. Som standard är egenskapen Minsta saknade värdekvot inställd på 0. Det innebär att saknade värden rensas även om det bara finns ett saknat värde.

Varning

Det här villkoret måste uppfyllas av varje kolumn för att den angivna åtgärden ska gälla. Anta till exempel att du har valt tre kolumner och sedan ange det minsta förhållandet mellan saknade värden till .2 (20 %), men endast en kolumn har faktiskt 20 % saknade värden. I det här fallet gäller rensningsåtgärden endast för kolumnen med över 20 % saknade värden. Därför skulle de andra kolumnerna vara oförändrade.

Om du är osäker på om saknade värden har ändrats väljer du alternativet Generera indikatorkolumn för saknade värden. En kolumn läggs till i datauppsättningen för att ange om varje kolumn uppfyller de angivna kriterierna för de minsta och högsta intervallen.
För Maximalt värde som saknas anger du det maximala antalet saknade värden som kan finnas för den åtgärd som ska utföras.

Du kanske till exempel bara vill utföra värdeersättning som saknas om 30 % eller färre av raderna innehåller saknade värden, men lämnar värdena som de är om fler än 30 % av raderna saknar värden.

Du definierar talet som förhållandet mellan saknade värden och alla värden i kolumnen. Som standard är förhållandet Maximalt saknat värde inställt på 1. Det innebär att saknade värden rensas även om 100 % av värdena i kolumnen saknas.
För Rensningsläge väljer du något av följande alternativ för att ersätta eller ta bort saknade värden:
- Anpassat ersättningsvärde: Använd det här alternativet för att ange ett platshållarvärde (till exempel 0 eller NA) som gäller för alla saknade värden. Värdet som du anger som ersättning måste vara kompatibelt med kolumnens datatyp.
- Ersätt med medelvärde: Beräknar kolumnsmedelvärdet och använder medelvärdet som ersättningsvärde för varje saknat värde i kolumnen.
  
  Gäller endast för kolumner som har datatyperna Integer, Double eller Boolean.
- Ersätt med median: Beräknar kolumnens medianvärde och använder medianvärdet som ersättning för eventuella saknade värden i kolumnen.
  
  Gäller endast för kolumner som har datatyperna Integer eller Double.
- Ersätt med läge: Beräknar läget för kolumnen och använder läget som ersättningsvärde för varje saknat värde i kolumnen.
  
  Gäller för kolumner som har datatyperna Integer, Double, Boolean eller Categorical.
- Ta bort hela raden: Tar helt bort alla rader i datauppsättningen som har ett eller flera saknade värden. Detta är användbart om det saknade värdet kan betraktas som slumpmässigt saknat.
- Ta bort hela kolumnen: Tar helt bort alla kolumner i datauppsättningen som har ett eller flera saknade värden.
Alternativet Ersättningsvärde är tillgängligt om du har valt alternativet Anpassat ersättningsvärde. Ange ett nytt värde som ska användas som ersättningsvärde för alla saknade värden i kolumnen.

Observera att du endast kan använda det här alternativet i kolumner som har Heltal, Dubbelt, Booleskt värde eller Sträng.
Generera indikatorkolumn för saknade värden: Välj det här alternativet om du vill ange en indikation på om värdena i kolumnen uppfyller kriterierna för rensning av saknade värden. Det här alternativet är särskilt användbart när du konfigurerar en ny rengöringsåtgärd och vill se till att den fungerar som den är utformad.
Skicka pipelinen.

Resultat

Komponenten returnerar två utdata:

Rensad datauppsättning: En datauppsättning som består av de valda kolumnerna, med saknade värden hanterade som angivna, tillsammans med en indikatorkolumn, om du valde det alternativet.

Kolumner som inte har valts för rensning "skickas också".
Rensningstransformering: En datatransformering som används för rensning, som kan sparas på din arbetsyta och tillämpas på nya data senare.

Tillämpa en sparad rensningsåtgärd på nya data

Om du behöver upprepa rensningsåtgärder ofta rekommenderar vi att du sparar ditt recept för datarensning som en transformering för att återanvända med samma datauppsättning. Att spara en rensningstransformering är särskilt användbart om du ofta måste importera om och sedan rensa data som har samma schema.

Lägg till komponenten Använd transformering i din pipeline.
Lägg till den datauppsättning som du vill rensa och anslut datauppsättningen till den högra indataporten.
Expandera gruppen Transformeringar i den vänstra rutan i designern. Leta upp den sparade omvandlingen och dra den till pipelinen.
Anslut den sparade omvandlingen till den vänstra indataporten för Tillämpa transformering.

När du tillämpar en sparad transformering kan du inte välja de kolumner som omvandlingen ska tillämpas på. Det beror på att omvandlingen redan har definierats och tillämpas automatiskt på de kolumner som angavs i den ursprungliga åtgärden.

Anta dock att du har skapat en transformering på en delmängd av numeriska kolumner. Du kan tillämpa den här omvandlingen på en datauppsättning med blandade kolumntyper utan att generera ett fel, eftersom de saknade värdena bara ändras i matchande numeriska kolumner.
Skicka pipelinen.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.