Ta bort komponenten Duplicerade rader

I den här artikeln beskrivs en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att ta bort potentiella dubbletter från en datauppsättning.

Anta till exempel att dina data ser ut så här och representerar flera poster för patienter.

PatientID Initialer Kön Ålder Erkände
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Det här exemplet innehåller flera kolumner med potentiellt duplicerade data. Om de faktiskt är dubbletter beror på dina kunskaper om data.

  • Du kanske till exempel vet att många patienter har samma namn. Du skulle inte eliminera dubbletter med hjälp av namnkolumner, bara ID-kolumnen . På så sätt filtreras endast rader med dubbla ID-värden bort, oavsett om patienterna har samma namn eller inte.

  • Du kan också välja att tillåta dubbletter i ID-fältet och använda någon annan kombination av filer för att hitta unika poster, till exempel förnamn, efternamn, ålder och kön.

Om du vill ange kriterier för om en rad är duplicerad eller inte anger du en enskild kolumn eller en uppsättning kolumner som ska användas som nycklar. Två rader betraktas endast som dubbletter när värdena i alla nyckelkolumner är lika. Om någon rad saknar värde för nycklar betraktas de inte som dubblettrader. Om kön och ålder till exempel anges som Nycklar i tabellen ovan är rad 6 och 7 inte duplicerade rader eftersom de saknar värde i Ålder.

När du kör komponenten skapas en kandidatdatauppsättning och returnerar en uppsättning rader som inte har några dubbletter i den uppsättning kolumner som du har angett.

Viktigt

Källdatauppsättningen ändras inte. Den här komponenten skapar en ny datauppsättning som filtreras för att exkludera dubbletter baserat på de kriterier som du anger.

Så här använder du ta bort dubblettrader

  1. Lägg till komponenten i pipelinen. Du hittar komponenten Ta bort dubblettrader under Datatransformering, Manipulation.

  2. Anslut den datauppsättning som du vill söka efter dubblettrader.

  3. I fönstret Egenskaper , under Filteruttryck för val av nyckelkolumn, klickar du på Starta kolumnväljare för att välja kolumner som ska användas för att identifiera dubbletter.

    I det här sammanhanget betyder nyckeln inte en unik identifierare. Alla kolumner som du väljer med kolumnväljaren anges som nyckelkolumner. Alla omarkerade kolumner betraktas som icke-nyckelkolumner. Kombinationen av kolumner som du väljer som nycklar avgör posternas unika egenskaper. (Se det som en SQL-instruktion som använder flera likhetskopplingar.)

    Exempel:

    • "Jag vill se till att ID:na är unika": Välj endast kolumnen ID.
    • "Jag vill se till att kombinationen av förnamn, efternamn och ID är unik": Markera alla tre kolumnerna.
  4. Använd kryssrutan Behåll den första dubblettraden för att ange vilken rad som ska returneras när dubbletter hittas:

    • Om den är markerad returneras den första raden och andra tas bort.
    • Om du avmarkerar det här alternativet sparas den sista dubblettraden i resultatet och andra ignoreras.
  5. Skicka pipelinen.

  6. Om du vill granska resultaten högerklickar du på komponenten och väljer Visualisera.

Tips

Om resultatet är svårt att förstå, eller om du vill undanta vissa kolumner från övervägande, kan du ta bort kolumner med hjälp av komponenten Välj kolumner i datauppsättning .

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.