Tryb debugowania przepływu danych mapowania

Artykuł
10/26/2023

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Omówienie

Tryb debugowania przepływu mapowania danych w usługach Azure Data Factory i Synapse Analytics umożliwia interaktywne obserwowanie transformacji kształtu danych podczas kompilowania i debugowania przepływów danych. Sesja debugowania może być używana zarówno w Przepływ danych sesjach projektowania, jak i podczas wykonywania debugowania potoku przepływów danych. Aby włączyć tryb debugowania, użyj przycisku Przepływ danych Debuguj na górnym pasku kanwy przepływu danych lub kanwy potoku, gdy masz działania przepływu danych.

Po włączeniu suwaka zostanie wyświetlony monit o wybranie konfiguracji środowiska Integration Runtime, której chcesz użyć. Jeśli zostanie wybrana opcja AutoResolveIntegrationRuntime, klaster z ośmioma rdzeniami ogólnych obliczeń z domyślnym 60-minutowym czasem wygaśnięcia zostanie spun up. Jeśli chcesz zezwolić na więcej bezczynnych zespołów przed upływem limitu czasu sesji, możesz wybrać wyższe ustawienie czasu wygaśnięcia. Aby uzyskać więcej informacji na temat środowisk Integration Runtime przepływu danych, zobacz Wydajność środowiska Integration Runtime.

Wybieranie środowiska IR debugowania

Gdy tryb debugowania jest włączony, możesz interaktywnie skompilować przepływ danych za pomocą aktywnego klastra Spark. Sesja zostanie zamknięta po wyłączeniu debugowania. Należy pamiętać o opłatach godzinowych naliczanych przez usługę Data Factory w czasie włączenia sesji debugowania.

W większości przypadków dobrym rozwiązaniem jest utworzenie Przepływ danych w trybie debugowania, dzięki czemu można zweryfikować logikę biznesową i wyświetlić przekształcenia danych przed opublikowaniem pracy. Użyj przycisku "Debuguj" na panelu potoku, aby przetestować przepływ danych w potoku.

Azure Data Factory
Synapse Analytics

Wyświetlanie sesji debugowania przepływu danych

Uwaga

Każda sesja debugowania uruchamiana przez użytkownika przeglądarki to nowa sesja z własnym klastrem Spark. Możesz użyć widoku monitorowania dla sesji debugowania pokazanych na poprzednich obrazach, aby wyświetlić sesje debugowania i zarządzać nimi. Opłaty są naliczane za każdą godzinę wykonywania każdej sesji debugowania, w tym czas wygaśnięcia.

W tym klipie wideo omówiono porady, wskazówki i dobre rozwiązania dotyczące trybu debugowania przepływu danych.

Stan klastra

Wskaźnik stanu klastra w górnej części powierzchni projektowej zmieni kolor na zielony, gdy klaster jest gotowy do debugowania. Jeśli klaster jest już ciepły, wskaźnik zielony pojawia się niemal natychmiast. Jeśli klaster nie był jeszcze uruchomiony podczas wprowadzania trybu debugowania, klaster Spark wykonuje zimny rozruch. Wskaźnik obraca się do momentu, aż środowisko będzie gotowe do interaktywnego debugowania.

Po zakończeniu debugowania wyłącz wyłączenie debugowania, aby klaster Spark mógł zakończyć działanie i nie będą już naliczane opłaty za działanie debugowania.

Ustawienia debugowania

Po włączeniu trybu debugowania możesz edytować sposób wyświetlania podglądu danych przez przepływ danych. Ustawienia debugowania można edytować, klikając pozycję "Debuguj Ustawienia" na pasku narzędzi kanwy Przepływ danych. W tym miejscu możesz wybrać limit wierszy lub źródło plików, które ma być używane dla każdego przekształcenia źródła. Limity wierszy w tym ustawieniu dotyczą tylko bieżącej sesji debugowania. Możesz również wybrać połączoną usługę przejściową, która ma być używana dla źródła usługi Azure Synapse Analytics.

Ustawienia debugowania

Jeśli masz parametry w Przepływ danych lub dowolnym z zestawów danych, do których się odwołujesz, możesz określić wartości, które mają być używane podczas debugowania, wybierając kartę Parametry.

Użyj tutaj ustawień próbkowania, aby wskazać przykładowe pliki lub przykładowe tabele danych, aby nie trzeba było zmieniać źródłowych zestawów danych. Korzystając z przykładowego pliku lub tabeli w tym miejscu, można zachować te same ustawienia logiki i właściwości w przepływie danych podczas testowania podzestawu danych.

Parametry ustawień debugowania

Domyślnym środowiskiem IR używanym do trybu debugowania w przepływach danych jest mały 4-rdzeniowy pojedynczy węzeł roboczy z 4-rdzeniowym węzłem sterownika. Działa to dobrze w przypadku mniejszych próbek danych podczas testowania logiki przepływu danych. Jeśli rozszerzysz limity wierszy w ustawieniach debugowania podczas podglądu danych lub ustawisz większą liczbę przykładowych wierszy w źródle podczas debugowania potoku, warto rozważyć ustawienie większego środowiska obliczeniowego w nowym środowisku Azure Integration Runtime. Następnie możesz ponownie uruchomić sesję debugowania przy użyciu większego środowiska obliczeniowego.

Podgląd danych

W przypadku debugowania na karcie Podgląd danych na dolnym panelu pojawi się karta Podgląd danych. Bez włączonego trybu debugowania Przepływ danych pokazuje tylko bieżące metadane w i z każdej transformacji na karcie Inspekcja. Podgląd danych będzie wykonywać zapytania tylko o liczbę wierszy ustawionych jako limit w ustawieniach debugowania. Wybierz pozycję Odśwież , aby zaktualizować podgląd danych na podstawie bieżących przekształceń. Jeśli dane źródłowe uległy zmianie, wybierz pozycję Odśwież > ponownie pobierz ze źródła.

Podgląd danych

Kolumny można sortować w podglądzie danych i rozmieszczać kolumny przy użyciu przeciągania i upuszczania. Ponadto w górnej części panelu podglądu danych znajduje się przycisk eksportu, którego można użyć do wyeksportowania danych podglądu do pliku CSV na potrzeby eksploracji danych w trybie offline. Ta funkcja umożliwia eksportowanie do 1000 wierszy danych podglądu.

Uwaga

Źródła plików ograniczają tylko wyświetlane wiersze, a nie odczytywane wiersze. W przypadku bardzo dużych zestawów danych zaleca się wykonanie niewielkiej części tego pliku i użycie go do testowania. Możesz wybrać plik tymczasowy w obszarze Debugowanie Ustawienia dla każdego źródła, które jest typem zestawu danych plików.

W przypadku uruchamiania w trybie debugowania w Przepływ danych dane nie będą zapisywane w transformacji ujścia. Sesja debugowania ma służyć jako uprzężenie testowe dla przekształceń. Ujścia nie są wymagane podczas debugowania i są ignorowane w przepływie danych. Jeśli chcesz przetestować zapisywanie danych w ujściu, wykonaj Przepływ danych z potoku i użyj wykonywania debugowania z potoku.

Podgląd danych to migawka przekształconych danych przy użyciu limitów wierszy i próbkowania danych z ramek danych w pamięci platformy Spark. W związku z tym sterowniki ujścia nie są używane ani testowane w tym scenariuszu.

Uwaga

Podgląd danych wyświetla czas zgodnie z ustawieniami regionalnymi przeglądarki.

Testowanie warunków sprzężenia

Podczas testowania jednostkowego sprzężenia, istnieje lub przekształcenia wyszukiwania upewnij się, że używasz małego zestawu znanych danych do testu. Możesz użyć opisanej wcześniej opcji Debuguj Ustawienia, aby ustawić plik tymczasowy do użycia na potrzeby testowania. Jest to konieczne, ponieważ w przypadku ograniczania lub próbkowania wierszy z dużego zestawu danych nie można przewidzieć, które wiersze i które klucze są odczytywane do przepływu na potrzeby testowania. Wynik jest niedeterministyczny, co oznacza, że warunki sprzężenia mogą zakończyć się niepowodzeniem.

Szybkie akcje

Po wyświetleniu podglądu danych możesz wygenerować szybką transformację w celu rzutowania, usuwania lub modyfikowania kolumny. Wybierz nagłówek kolumny, a następnie wybierz jedną z opcji na pasku narzędzi podglądu danych.

Zrzut ekranu przedstawiający pasek narzędzi podglądu danych z opcjami: Typecast, Modify, Statistics i Remove.

Po wybraniu modyfikacji podgląd danych zostanie natychmiast odświeżyny. Wybierz pozycję Potwierdź w prawym górnym rogu, aby wygenerować nową transformację.

Zrzut ekranu przedstawia przycisk Potwierdź.

Funkcja Typecast i Modify generuje przekształcenie kolumny pochodnej i polecenie Remove generuje przekształcenie Select.

Zrzut ekranu przedstawiający Ustawienia kolumn pochodnych.

Uwaga

Jeśli edytujesz Przepływ danych, musisz ponownie pobrać podgląd danych przed dodaniem szybkiego przekształcenia.

Profilowanie danych

Wybranie kolumny na karcie podglądu danych i kliknięcie pozycji Statystyki na pasku narzędzi podglądu danych spowoduje wyświetlenie wykresu po prawej stronie siatki danych ze szczegółowymi statystykami dotyczącymi każdego pola. Usługa tworzy podstawę determinacji na próbkowaniu danych, którego typu wykres ma być wyświetlany. Pola o wysokiej kardynalności są domyślnie ustawione na wykresy NULL/NOT NULL, natomiast dane kategorii i liczbowe, które mają niską kardynalność, wyświetla wykresy słupkowe pokazujące częstotliwość wartości danych. Zobaczysz również maksymalną/pożyczoną długość pól ciągu, minimalną/maksymalną wartość w polach liczbowych, standardowym dev, percentylach, liczbach i średniej.

Statystyki kolumn

Po zakończeniu kompilowania i debugowania przepływu danych wykonaj go z potoku.
Podczas testowania potoku za pomocą przepływu danych użyj opcji wykonywania przebiegu debugowania potoku .

Tryb debugowania przepływu danych mapowania

Omówienie

Stan klastra

Ustawienia debugowania

Podgląd danych

Testowanie warunków sprzężenia

Szybkie akcje

Profilowanie danych

Powiązana zawartość

Dodatkowe zasoby