Dubbele rijen verwijderen

Hiermee worden de dubbele rijen uit een gegevensset verwijderd

Categorie: gegevens transformatie/-bewerking

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module dubbele rijen verwijderen in azure machine learning Studio (klassiek) kunt gebruiken om potentiële duplicaten uit een gegevensset te verwijderen.

Stel dat uw gegevens er als volgt uitzien en dat er meerdere records worden aangeduid voor patiënten.

PatientID Initialen Geslacht Leeftijd Stoffen
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53

Het is duidelijk dat dit voor beeld meerdere kolommen bevat met mogelijk dubbele gegevens. Of ze daad werkelijk worden gedupliceerd, is afhankelijk van uw kennis van de gegevens.

  • U kunt bijvoorbeeld weten dat veel patiënten dezelfde naam hebben. U kunt dubbele waarden niet elimineren met behulp van naam kolommen, alleen de kolom id . Op die manier worden alleen de rijen met dubbele ID-waarden gefilterd, ongeacht of de patiënten dezelfde naam hebben of niet.

  • U kunt er ook voor kiezen om dubbele waarden toe te staan in het veld ID en een andere combi natie van gearchiveerde items te gebruiken om unieke records te zoeken, zoals de voor naam, achternaam, leeftijd en geslacht.

Als u de criteria wilt instellen voor of een rij dubbel of niet is, geeft u één kolom of een set kolommen op die moet worden gebruikt als sleutel. Twee rijen worden alleen als dubbele waarden beschouwd als alle sleutel kolommen gelijk zijn.

Wanneer u de module uitvoert, wordt er een gegevensset voor kandidaten gemaakt en wordt een set rijen geretourneerd die geen duplicaten bevat in de opgegeven set kolommen.

Belangrijk

De bron-gegevensset is niet gewijzigd. in deze module wordt een nieuwe gegevensset gemaakt die wordt gefilterd om dubbele waarden uit te sluiten, op basis van de criteria die u opgeeft.

Dubbele rijen verwijderen gebruiken

  1. Voeg de module toe aan uw experiment. U kunt de module dubbele rijen verwijderen vinden onder gegevens transformatie, bewerken.

  2. Verbind de gegevensset die u wilt controleren op dubbele rijen.

  3. Klik in het deel venster Eigenschappen onder filter expressie voor sleutel kolommen selecteren op kolom kiezer startenom kolommen te kiezen die u wilt gebruiken bij het identificeren van duplicaten.

    In deze context betekent de sleutel geen unieke id. Alle kolommen die u selecteert met behulp van de kolom kiezer, worden aangeduid als sleutel kolommen. Alle niet-geselecteerde kolommen worden beschouwd als niet-sleutel kolommen. De combi natie van kolommen die u als sleutels selecteert, bepaalt de unieke aanduiding van de records. (Dit kan worden beschouwd als een SQL-instructie waarbij meerdere gelijkheids koppelingen worden gebruikt.)

    Voorbeelden:

    • "Ik wil ervoor zorgen dat de Id's uniek zijn": Kies alleen de ID-kolom.
    • "Ik wil ervoor zorgen dat de combi natie van voor naam, achternaam en ID uniek is": Selecteer alle drie de kolommen.
  4. Gebruik het selectie vakje eerste dubbele rij bewaren om aan te geven welke rij moet worden geretourneerd wanneer dubbele waarden worden gevonden:

    • Als deze is geselecteerd, wordt de eerste rij geretourneerd en anderen verwijderd.
    • Als u deze optie uitschakelt, wordt de laatste dubbele rij in de resultaten bewaard en anderen verwijderd.

    Zie de sectie met technische opmerkingen voor informatie over hoe missinng waarden worden verwerkt.

  5. Voer het experiment uit, of klik op de module en selecteer geselecteerde uitvoeren.

  6. Als u de resultaten wilt bekijken, klikt u met de rechter muisknop op de module, selecteert u resultaten gegevensseten klikt u op visualiseren.

Tip

Als de resultaten moeilijk te begrijpen zijn, of als u wilt voor komen dat sommige kolommen van overweging worden genomen, kunt u kolommen verwijderen met de module kolommen in gegevensset selecteren .

Voorbeelden

Voor voor beelden van de manier waarop deze module wordt gebruikt, raadpleegt u de Azure AI Gallery:

  • Borst kanker Detection: verwijderen van dubbele rijen wordt gebruikt om de training samen te voegen en gegevens sets te testen na het toevoegen van functie kolommen.

  • Film aanbeveling: gebruikt dubbele rijen verwijderen om ervoor te zorgen dat er slechts één gebruikers classificatie per film is.

  • Twitter sentiment Analysis: verwijderen van dubbele rijen wordt alleen toegepast op de kolom id en populariteit, om ervoor te zorgen dat er slechts één rangorde waarde per film is. Met andere woorden, een film kan niet zowel 1e als derde zijn, dus er wordt een enkele waarde gebruikt, zelfs als gebruikers een andere film hebben geclassificeerd.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Implementatie Details

De module werkt door alle rijen van de invoer gegevensset te door lopen. Er wordt in een kandidaat-uitvoer gegevensset alle rijen weer gegeven waarin de unieke combi natie van sleutel kolom waarden voor de eerste keer voor komt.

Het kolom matrix type wordt onafhankelijk van de resultaten van het filteren van rijen bewaard. U kunt de matrix niet afdwingen naar een bepaald gegevens type door ongeldige waarden uit te filteren. het kolom matrix type is gebaseerd op alle waarden in de kolom. Deze beperking geldt ook bij het filteren van ontbrekende waarden.

De algoritme die wordt gebruikt voor het vergelijken van gegevens waarden is hash-geforceerd.

Ontbrekende waarden

De invoer gegevensset bevat mogelijk waarden in niet-sleutel kolommen en sleutel kolommen. Deze regels zijn van toepassing op ontbrekende waarden:

  • Een ontbrekende waarde wordt beschouwd als een geldige waarde in sleutel kolommen. Ontbrekende waarden kunnen in beide sleutels aanwezig zijn.

  • In een sparse gegevensset wordt de ontbrekende waarde beschouwd als gelijk aan de standaard weergave van een sparse waarde.

  • In sleutel kolommen wordt een ontbrekende waarde beschouwd als gelijk aan andere ontbrekende waarden, maar niet gelijk aan niet-ontbrekende waarden.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Expressie voor selectie filter voor sleutel kolommen alle ColumnSelection De sleutel kolommen kiezen die moeten worden gebruikt bij het zoeken naar dubbele records.
Eerste dubbele rij behouden alle Boolean-waarde true Geef aan of de eerste rij van een verzameling dubbele waarden moet worden bewaard en anderen moeten worden verwijderd. Als deze eigenschap onwaar is, wordt de laatste dubbele rij aangetroffen.

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gefilterde gegevensset

Uitzonderingen

Uitzondering Beschrijving
Fout 0003 Een uitzonde ring treedt op als een of meer van de invoer gegevens sets null of leeg zijn.
Fout 0020 Een uitzonde ring treedt op als het aantal kolommen in sommige gegevens sets die aan de module zijn door gegeven, te klein is.
Fout 0017 Een uitzonde ring treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Kenmerken
Module lijst a-Z