Usuń zduplikowany składnik wierszy

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby usunąć potencjalne duplikaty z zestawu danych.

Załóżmy na przykład, że dane wyglądają jak poniżej i reprezentują wiele rekordów dla pacjentów.

Identyfikator pacjenta Inicjały Płeć Wiek Dopuszczone
1 F.M. M 53 Sty
2 F.A.M. M 53 Sty
3 F.A.M. M 24 Sty
3 F.M. M 24 Lut
4 F.M. M 23 Lut
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Oczywiście w tym przykładzie istnieje wiele kolumn z potencjalnie zduplikowanymi danymi. Niezależnie od tego, czy są one rzeczywiście duplikatami, zależy od twojej wiedzy na temat danych.

  • Na przykład można wiedzieć, że wielu pacjentów ma taką samą nazwę. Nie można wyeliminować duplikatów przy użyciu żadnych kolumn nazw, tylko kolumny ID . W ten sposób odfiltrowane są tylko wiersze z zduplikowanymi wartościami identyfikatorów, niezależnie od tego, czy pacjenci mają taką samą nazwę, czy nie.

  • Alternatywnie możesz zdecydować się zezwolić na duplikaty w polu identyfikatora i użyć innej kombinacji plików, aby znaleźć unikatowe rekordy, takie jak imię, nazwisko, wiek i płeć.

Aby ustawić kryteria dotyczące tego, czy wiersz jest zduplikowany, czy nie, należy określić jedną kolumnę lub zestaw kolumn do użycia jako klucze. Dwa wiersze są traktowane jako duplikaty tylko wtedy, gdy wartości we wszystkich kolumnach kluczy są równe. Jeśli w jakimkolwiek wierszu brakuje wartości kluczy, nie zostaną one uznane za zduplikowane wiersze. Jeśli na przykład płeć i wiek są ustawione jako Klucze w powyższej tabeli, wiersz 6 i 7 nie są zduplikowane wiersze, biorąc pod uwagę, że brakuje ich wartości w erze.

Po uruchomieniu składnika tworzy on kandydata zestaw danych i zwraca zestaw wierszy, które nie mają duplikatów w określonym zestawie kolumn.

Ważne

Źródłowy zestaw danych nie jest zmieniany; ten składnik tworzy nowy zestaw danych, który jest filtrowany w celu wykluczenia duplikatów na podstawie podanych kryteriów.

Jak używać polecenia Usuń zduplikowane wiersze

  1. Dodaj składnik do potoku. Składnik Usuń zduplikowane wiersze można znaleźć w obszarze Przekształcanie danych, Manipulowanie.

  2. Połącz zestaw danych, który chcesz sprawdzić pod kątem zduplikowanych wierszy.

  3. W okienku Właściwości w obszarze Wyrażenie filtru wyboru kolumny klucza kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumny do użycia w identyfikowaniu duplikatów.

    W tym kontekście klucz nie oznacza unikatowego identyfikatora. Wszystkie kolumny wybrane przy użyciu selektora kolumn są oznaczone jako kolumny klucza. Wszystkie niezaznaczone kolumny są traktowane jako kolumny inne niż kluczowe. Kombinacja kolumn wybranych jako klucze określa unikatowość rekordów. (Pomyśl o tym jako instrukcji SQL, która używa wielu sprzężeń równości).

    Przykłady:

    • "Chcę upewnić się, że identyfikatory są unikatowe": wybierz tylko kolumnę ID.
    • "Chcę upewnić się, że kombinacja nazwiska, nazwiska i identyfikatora jest unikatowa": Wybierz wszystkie trzy kolumny.
  4. Użyj pola wyboru Zachowaj pierwszy zduplikowany wiersz , aby wskazać, który wiersz ma być zwracany po znalezieniu duplikatów:

    • W przypadku wybrania pierwszego wiersza zostanie zwrócony pierwszy wiersz, a inne zostaną odrzucone.
    • Jeśli ta opcja zostanie anulowana, ostatni zduplikowany wiersz będzie przechowywany w wynikach, a inne zostaną odrzucone.
  5. Prześlij potok.

  6. Aby przejrzeć wyniki, kliknij prawym przyciskiem myszy składnik, a następnie wybierz pozycję Wizualizuj.

Porada

Jeśli wyniki są trudne do zrozumienia lub jeśli chcesz wykluczyć niektóre kolumny z uwagi, możesz usunąć kolumny przy użyciu składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ).

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.