Het onderdeel Dubbele rijen verwijderen

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik dit onderdeel om mogelijke duplicaten uit een gegevensset te verwijderen.

Stel dat uw gegevens er als volgt uitzien en meerdere records voor patiënten vertegenwoordigen.

PatientID Initialen Geslacht Leeftijd Toegelaten
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M Geen getal
7 F.A.M. M Geen getal

Het is duidelijk dat dit voorbeeld meerdere kolommen bevat met mogelijk dubbele gegevens. Of het daadwerkelijk duplicaten zijn, is afhankelijk van uw kennis van de gegevens.

  • U weet bijvoorbeeld dat veel patiënten dezelfde naam hebben. U verwijdert dubbele waarden niet met behulp van naamkolommen, alleen de id-kolom . Op die manier worden alleen de rijen met dubbele id-waarden gefilterd, ongeacht of de patiënten dezelfde naam hebben of niet.

  • U kunt ook besluiten om duplicaten toe te staan in het veld Id en een andere combinatie van bestanden te gebruiken om unieke records te vinden, zoals voornaam, achternaam, leeftijd en geslacht.

Als u de criteria wilt instellen voor het al dan niet dupliceren van een rij, geeft u één kolom of een set kolommen op die als sleutels moeten worden gebruikt. Twee rijen worden alleen als duplicaten beschouwd als de waarden in alle sleutelkolommen gelijk zijn. Als een rij ontbrekende waarde voor sleutels bevat, worden deze niet als dubbele rijen beschouwd. Als geslacht en leeftijd bijvoorbeeld zijn ingesteld als sleutels in de bovenstaande tabel, zijn rij 6 en 7 geen dubbele rijen, omdat ze een ontbrekende waarde hebben in Leeftijd.

Wanneer u het onderdeel uitvoert, wordt er een kandidaatgegevensset gemaakt en wordt een set rijen geretourneerd die geen duplicaten hebben in de set kolommen die u hebt opgegeven.

Belangrijk

De brongegevensset wordt niet gewijzigd; dit onderdeel maakt een nieuwe gegevensset die wordt gefilterd om duplicaten uit te sluiten, op basis van de criteria die u opgeeft.

Dubbele rijen verwijderen gebruiken

  1. Voeg het onderdeel toe aan uw pijplijn. U vindt het onderdeel Dubbele rijen verwijderen onder Gegevenstransformatie, Manipulatie.

  2. Verbind de gegevensset die u wilt controleren op dubbele rijen.

  3. Klik in het deelvenster Eigenschappen onder Filterexpressie voor selectie van sleutelkolommen op Kolomkiezer starten om kolommen te kiezen die moeten worden gebruikt bij het identificeren van duplicaten.

    In deze context betekent Sleutel niet een unieke id. Alle kolommen die u selecteert met behulp van de kolomkiezer, worden aangewezen als sleutelkolommen. Alle niet-geselecteerde kolommen worden beschouwd als niet-sleutelkolommen. De combinatie van kolommen die u als sleutels selecteert, bepaalt de uniekheid van de records. (U kunt het zien als een SQL-instructie die gebruikmaakt van meerdere eigenschappen joins.)

    Voorbeelden:

    • 'Ik wil ervoor zorgen dat id's uniek zijn': kies alleen de kolom Id.
    • 'Ik wil ervoor zorgen dat de combinatie van voornaam, achternaam en id uniek is': Selecteer alle drie de kolommen.
  4. Gebruik het selectievakje Eerste dubbele rij behouden om aan te geven welke rij moet worden geretourneerd wanneer duplicaten worden gevonden:

    • Als deze optie is geselecteerd, wordt de eerste rij geretourneerd en worden andere rijen verwijderd.
    • Als u deze optie uitschakelt, blijft de laatste dubbele rij behouden in de resultaten en worden andere rijen verwijderd.
  5. Verzend de pijplijn.

  6. Als u de resultaten wilt bekijken, klikt u met de rechtermuisknop op het onderdeel en selecteert u Visualiseren.

Tip

Als de resultaten moeilijk te begrijpen zijn of als u bepaalde kolommen wilt uitsluiten van overweging, kunt u kolommen verwijderen met behulp van het onderdeel Kolommen in gegevensset selecteren .

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.