Przepływy danych w usłudze Azure Synapse Analytics

Artykuł
06/01/2023

Co to są przepływy danych?

Przepływy danych są wizualnie zaprojektowane przekształcenia danych w usłudze Azure Synapse Analytics. Przepływy danych umożliwiają inżynierom danych opracowywanie logiki przekształcania danych bez pisania kodu. Wynikowe przepływy danych są wykonywane jako działania w potokach usługi Azure Synapse Analytics, które używają skalowanych w poziomie klastrów Platformy Apache Spark. Działania przepływu danych można zoperacjonalizować przy użyciu istniejących funkcji planowania, sterowania, przepływu i monitorowania Azure Synapse Analytics.

Przepływy danych zapewniają całkowicie wizualne środowisko bez konieczności kodowania. Przepływy danych są uruchamiane w klastrach wykonywania zarządzanych przez usługę Synapse na potrzeby skalowania w poziomie przetwarzania danych. Azure Synapse Analytics obsługuje całe tłumaczenie kodu, optymalizację ścieżki i wykonywanie zadań przepływu danych.

Wprowadzenie

Przepływy danych są tworzone na podstawie okienka Programowanie w programie Synapse Studio. Aby utworzyć przepływ danych, wybierz znak plus obok pozycji Programowanie, a następnie wybierz pozycję Przepływ danych.

Nowy przepływ danych

Ta akcja powoduje przejście do kanwy przepływu danych, w której można utworzyć logikę przekształcania. Wybierz pozycję Dodaj źródło , aby rozpocząć konfigurowanie transformacji źródłowej. Aby uzyskać więcej informacji, zobacz Przekształcanie źródła.

Tworzenie przepływów danych

Przepływ danych ma unikatową kanwę tworzenia, która ułatwia tworzenie logiki przekształcania. Kanwa przepływu danych jest podzielona na trzy części: górny pasek, wykres i panel konfiguracji.

Zrzut ekranu przedstawiający kanwę przepływu danych z górnym paskiem, wykresem i panelem konfiguracji oznaczonym etykietą.

Graph

Na wykresie jest wyświetlany strumień przekształcenia. Pokazuje pochodzenie danych źródłowych, gdy przepływa do co najmniej jednego ujścia. Aby dodać nowe źródło, wybierz pozycję Dodaj źródło. Aby dodać nową transformację, wybierz znak plus w prawym dolnym rogu istniejącej transformacji. Dowiedz się więcej na temat zarządzania grafem przepływu danych.

Zrzut ekranu przedstawia część wykresu kanwy z polem tekstowym Wyszukaj.

Panel konfiguracji

Panel konfiguracji przedstawia ustawienia specyficzne dla aktualnie wybranej transformacji. Jeśli nie wybrano przekształcenia, zostanie wyświetlony przepływ danych. W ogólnej konfiguracji przepływu danych można dodać parametry za pomocą karty Parametry . Aby uzyskać więcej informacji, zobacz Parametry przepływu danych.

Każda transformacja zawiera co najmniej cztery karty konfiguracji.

Ustawienia przekształcania

Pierwsza karta w okienku konfiguracji każdego przekształcenia zawiera ustawienia specyficzne dla tej transformacji. Aby uzyskać więcej informacji, zobacz stronę dokumentacji tego przekształcenia.

Karta Ustawienia źródła

Optymalizacja

Karta Optymalizowanie zawiera ustawienia służące do konfigurowania schematów partycjonowania. Aby dowiedzieć się więcej na temat optymalizowania przepływów danych, zobacz przewodnik dotyczący wydajności przepływu mapowania danych.

Zrzut ekranu przedstawiający kartę Optymalizowanie

Kontrola

Karta Inspekcja zawiera widok metadanych strumienia danych, który przekształcasz. Liczby kolumn, kolumny zmienione, dodane kolumny, typy danych, kolejność kolumn i odwołania do kolumn. Inspekcja to widok metadanych tylko do odczytu. Nie musisz mieć włączonego trybu debugowania, aby wyświetlić metadane w okienku Inspekcja .

Karta Inspekcja

Po zmianie kształtu danych za pomocą przekształceń zobaczysz przepływ zmian metadanych w okienku Inspekcja . Jeśli w transformacji źródłowej nie ma zdefiniowanego schematu, metadane nie będą widoczne w okienku Inspekcja . Brak metadanych jest powszechny w scenariuszach dryfu schematu.

Podgląd danych

Jeśli tryb debugowania jest włączony, karta Podgląd danych udostępnia interaktywną migawkę danych w każdej transformacji. Aby uzyskać więcej informacji, zobacz Podgląd danych w trybie debugowania.

Górny pasek

Górny pasek zawiera akcje wpływające na cały przepływ danych, takie jak ustawienia walidacji i debugowania. Możesz również wyświetlić źródłowy kod JSON i skrypt przepływu danych logiki przekształcania.

Dostępne przekształcenia

Wyświetl omówienie przekształcania przepływu danych mapowania, aby uzyskać listę dostępnych przekształceń.

Działanie przepływu danych

Przepływy danych są operacjonalizowane w potokach usługi Azure Synapse Analytics przy użyciu działania przepływu danych. Każdy użytkownik musi to zrobić, to określić, które środowisko Integration Runtime ma używać i przekazywać wartości parametrów. Aby uzyskać więcej informacji, dowiedz się więcej o środowisku Azure Integration Runtime.

Tryb debugowania

Tryb debugowania umożliwia interaktywne wyświetlanie wyników każdego kroku transformacji podczas kompilowania i debugowania przepływów danych. Sesja debugowania może być używana zarówno podczas tworzenia logiki przepływu danych, jak i uruchamiania przebiegów debugowania potoku przy użyciu działań przepływu danych. Aby dowiedzieć się więcej, zobacz dokumentację trybu debugowania.

Monitorowanie przepływów danych

Przepływ danych integruje się z istniejącymi możliwościami monitorowania usługi Azure Synapse Analytics. Aby dowiedzieć się, jak zrozumieć dane wyjściowe monitorowania przepływu danych, zobacz Monitorowanie przepływów danych mapowania.

Zespół ds. analizy Azure Synapse utworzył przewodnik dostrajania wydajności, który pomaga zoptymalizować czas wykonywania przepływów danych po utworzeniu logiki biznesowej.

Następne kroki

Dowiedz się, jak utworzyć transformację źródłową.
Dowiedz się, jak tworzyć przepływy danych w trybie debugowania.

Share via