Debugowanie potoków fabryki danych

8 min

Wymagania i oczekiwania klientów zmieniają się w odniesieniu do integracji danych. Potrzeba między użytkownikami tworzenia i debugowania przepływów pracy wyodrębniania transformacji/ładowania (ETL) i wyodrębniania obciążenia/transformacji (ELT) w związku z tym staje się coraz bardziej imperatywne.

Usługa Azure Data Factory ułatwia tworzenie i opracowywanie iteracyjnych potoków debugowania usługi Data Factory podczas opracowywania rozwiązania do integracji danych. Tworząc potok przy użyciu kanwy potoku, możesz przetestować działania i potoki przy użyciu funkcji Debugowanie.

W usłudze Azure Data Factory nie ma potrzeby publikowania zmian w potoku lub działaniach przed rozpoczęciem debugowania. Jest to przydatne w scenariuszu, w którym chcesz przetestować zmiany i sprawdzić, czy działa zgodnie z oczekiwaniami, zanim rzeczywiście zapiszesz je i opublikujesz.

Czasami nie chcesz debugować całego potoku, ale testować część potoku. Uruchomienie debugowania pozwala to zrobić. Możesz przetestować zakończenie potoku lub ustawić punkt przerwania. Dzięki temu w trybie debugowania możesz interaktywnie zobaczyć wyniki każdego kroku podczas kompilowania i debugowania potoku.

Debugowanie i publikowanie potoku

Podczas tworzenia lub modyfikowania uruchomionego potoku można zobaczyć wyniki każdego działania na karcie Dane wyjściowe kanwy potoku.

Po pomyślnym zakończeniu przebiegu testu i zadowoleniu z wyników możesz dodać więcej działań do potoku i kontynuować debugowanie w sposób iteracyjny. Jeśli potok nie jest zadowalający lub chcesz zatrzymać potok przed debugowaniem, możesz anulować przebieg testu, gdy jest on w toku. Należy pamiętać, że wybranie suwaka debugowania spowoduje uruchomienie potoku. W związku z tym jeśli potok zawiera na przykład działanie kopiowania, przebieg testu skopiuje dane ze źródła do miejsca docelowego.

Najlepszym rozwiązaniem jest użycie folderów testowych w działaniach kopiowania i innych działań podczas debugowania, tak aby w przypadku zadowolenia z wyników i debugowania potoku przełączysz się do rzeczywistych folderów dla normalnych operacji.

Aby debugować potok, wybierz na pasku narzędzi pozycję Debuguj. Na karcie Dane wyjściowe w dolnej części okna wyświetlany jest stan uruchomienia potoku.

Po pomyślnym uruchomieniu potoku na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja powoduje opublikowanie utworzonych jednostek (zestawy danych i potok) w usłudze Data Factory.

Poczekaj, aż zostanie wyświetlony pomyślnie opublikowany komunikat. Aby wyświetlić komunikaty powiadomień, wybierz ikonę Pokaż powiadomienia (ikona dzwonka) w prawym górnym rogu portalu (przycisk dzwonka).

Debugowanie przepływu danych mapowania

Podczas tworzenia Przepływ danych mapowania można interaktywnie obserwować sposób wykonywania kształtów i przekształceń danych w celu ich debugowania. Aby użyć tej funkcji, należy najpierw włączyć funkcję "Przepływ danych Debug".

Sesja debugowania może być używana zarówno w Przepływ danych sesjach projektowania, jak i podczas debugowania potoku wykonywania przepływów danych. Po włączonym trybie debugowania faktycznie utworzysz przepływ danych za pomocą aktywnego klastra Spark. Klaster Spark zostanie zamknięty po wyłączeniu debugowania. Możesz wybrać zasoby obliczeniowe, których zamierzasz użyć. Jeśli używasz istniejącego klastra debugowania, skróci to czas uruchamiania. Jednak w przypadku złożonych lub równoległych obciążeń możesz chcieć uruchomić własny klaster just in time.

Najlepsze rozwiązania dotyczące debugowania przepływów danych to utrzymywanie trybu debugowania oraz sprawdzanie i weryfikowanie logiki biznesowej zawartej w przepływie danych. Wizualne wyświetlanie przekształceń danych i kształtów ułatwia wyświetlenie zmian.

Jeśli chcesz przetestować przepływ danych w utworzonym potoku, najlepiej użyć przycisku Debuguj na panelu potoku. Chociaż podgląd danych nie zapisuje danych, przebieg debugowania w przepływie danych będzie zapisywać dane, podobnie jak debugowanie potoku, do miejsca docelowego ujścia.

Ustawienia debugowania

Zgodnie z wcześniejszym opisem każda sesja debugowania uruchomiona z interfejsu użytkownika usługi Azure Data Factory jest traktowana jako nowa sesja z własnym klastrem Spark. Aby monitorować sesje, możesz użyć widoku monitorowania dla sesji debugowania, aby zarządzać sesjami debugowania zgodnie z konfiguracją usługi Data Factory.

Aby sprawdzić, czy klaster Spark jest gotowy do debugowania, możesz sprawdzić wskazanie stanu klastra w górnej części powierzchni projektowej. Jeśli jest zielony, jest gotowy. Jeśli klaster nie był uruchomiony w trybie debugowania, czas oczekiwania może trwać od 5 do 7 minut, ponieważ klastry muszą się uruchomić.

Najlepszym rozwiązaniem jest wyłączenie trybu debugowania po zakończeniu debugowania, tak aby klaster Spark zakończył działanie.

Podczas debugowania możesz edytować podgląd danych w przepływie danych, wybierając pozycję Ustawienie debugowania. Przykłady zmiany podglądu danych mogą być limitem wierszy lub źródłem plików w przypadku używania przekształceń źródłowych. Po wybraniu przejściowej połączonej usługi możesz użyć usługi Azure Synapse Analytics jako źródła.

Jeśli masz parametry w Przepływ danych lub dowolnym z zestawów danych, do których się odwołujesz, możesz określić wartości, które mają być używane podczas debugowania, wybierając kartę Parametry. Podczas debugowania ujścia nie są wymagane i są ignorowane w przepływie danych. Jeśli chcesz przetestować i zapisać przekształcone dane do ujścia, możesz wykonać przepływ danych z potoku i użyć wykonywania debugowania z potoku.

Jak opisano wcześniej, w usłudze Azure Data Factory możliwe jest debugowanie tylko do określonego punktu lub działania. W tym celu możesz użyć punktu przerwania w działaniu do miejsca, w którym chcesz przetestować, a następnie wybrać pozycję Debuguj. Opcja Debuguj do jest wyświetlana jako puste czerwone kółko w prawym górnym rogu elementu. Po wybraniu opcji Debuguj do momentu zmieni się ona na wypełnione czerwone kółko, aby wskazać, że punkt przerwania jest włączony. Następnie usługa Azure Data Factory upewni się, że test jest uruchamiany tylko do momentu uruchomienia działania punktu przerwania w potoku. Ta funkcja jest przydatna, gdy chcesz przetestować tylko podzbiór działań w potoku.

W większości scenariuszy funkcje debugowania w usłudze Azure Data Factory są wystarczające. Jednak czasami konieczne jest przetestowanie zmian w potoku w sklonowanym środowisku piaskownicy. Przypadek użycia, który należy zrobić, to w przypadku sparametryzowanych potoków ETL, które chcesz przetestować, jak będą zachowywać się po wyzwoleniu przybycia pliku w porównaniu z upływem przedziału czasu. W takim przypadku klonowanie środowiska piaskownicy może być bardziej odpowiednie.

Dobrą rzeczą, aby wiedzieć o usłudze Azure Data Factory, może być to, że ponieważ jest to głównie naliczane tylko przez liczbę przebiegów, druga usługa Data Factory nie musi prowadzić do dodatkowych opłat.

Monitorowanie przebiegów debugowania

Aby monitorować przebiegi debugowania, możesz sprawdzić kartę danych wyjściowych, ale tylko dla ostatniego przebiegu, które wystąpiło w sesji przeglądania, ponieważ nie będzie pokazywać historii. Jeśli chcesz wyświetlić historię przebiegów debugowania lub zobaczyć wszystkie aktywne przebiegi debugowania, możesz przejść do karty Monitorowanie .

Należy pamiętać, że usługa Azure Data Factory przechowuje historię uruchamiania debugowania tylko przez 15 dni. W odniesieniu do monitorowania sesji debugowania przepływu danych można również przejść do karty Monitorowanie .

Kontynuuj

Debugowanie potoków fabryki danych

Debugowanie i publikowanie potoku

Debugowanie przepływu danych mapowania

Ustawienia debugowania

Monitorowanie przebiegów debugowania

Opinia