Deduplikuj wiersze i znajdź wartości null przy użyciu fragmentów kodu przepływu danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Używając fragmentów kodu w przepływach danych mapowania, można łatwo wykonywać typowe zadania, takie jak deduplikacja danych i filtrowanie wartości null. W tym artykule wyjaśniono, jak łatwo dodawać te funkcje do potoków przy użyciu fragmentów skryptu przepływu danych.

Tworzenie potoku

  1. Wybierz pozycję Nowy potok.

  2. Dodaj działanie przepływu danych.

  3. Wybierz kartę Ustawienia źródła, dodaj przekształcenie źródła, a następnie połącz je z jednym z zestawów danych.

    Screenshot of the "Source settings" pane for adding a source type.

    Fragmenty kodu deduplikacji i sprawdzania wartości null używają ogólnych wzorców, które korzystają z dryfu schematu przepływu danych. Fragmenty kodu działają z dowolnym schematem z zestawu danych lub zestawami danych, które nie mają wstępnie zdefiniowanego schematu.

  4. W sekcji "Distinct row using all columns" (Distinct row using all columns) ( Unikatowe wiersze używające wszystkich kolumn) skryptu przepływu danych (DFS) skopiuj fragment kodu dla funkcji DistinctRows.

  5. Przejdź do strony dokumentacji skryptu Przepływ danych i skopiuj fragment kodu dla odrębnych wierszy.

    Screenshot of a source snippet.

  6. W skrypcie po definicji source1naciśnij klawisz Enter, a następnie wklej fragment kodu.

  7. Wykonaj jedną z następujących czynności:

    • Połączenie wklejony fragment kodu do przekształcenia źródłowego utworzonego wcześniej w grafie, wpisując source1 przed wklejonym kodem.

    • Alternatywnie możesz połączyć nowe przekształcenie w projektancie, wybierając strumień przychodzący z nowego węzła przekształcenia na wykresie.

      Screenshot of the "Conditional split settings" pane.

    Teraz przepływ danych usunie zduplikowane wiersze ze źródła przy użyciu transformacji agregującej, która grupuje wszystkie wiersze przy użyciu ogólnego skrótu we wszystkich wartościach kolumn.

  8. Dodaj fragment kodu do dzielenia danych na jeden strumień zawierający wiersze z wartościami null i inny strumień bez wartości null. Aby to zrobić:

  9. Wróć do biblioteki fragmentów kodu i tym razem skopiuj kod do sprawdzania wartości NULL.

    b. W projektancie przepływu danych ponownie wybierz pozycję Skrypt , a następnie wklej ten nowy kod przekształcania u dołu. Ta akcja łączy skrypt z poprzednią transformacją, umieszczając nazwę tej transformacji przed wklejonym fragmentem kodu.

    Wykres przepływu danych powinien teraz wyglądać podobnie do następującego:

    Screenshot of the data flow graph.

Utworzono przepływ danych roboczych z ogólnymi dedupingami i sprawdzaniem wartości null przez pobranie istniejących fragmentów kodu z biblioteki skryptów Przepływ danych i dodanie ich do istniejącego projektu.

  • Utwórz pozostałą część logiki przepływu danych przy użyciu przekształceń przepływów danych mapowania.