Używanie przepływów danych w potokach

Podczas tworzenia złożonych potoków z wieloma przepływami danych przepływ logiczny może mieć duży wpływ na czas i koszt. W tej sekcji opisano wpływ różnych strategii architektury.

Równoległe wykonywanie przepływów danych

W przypadku równoległego wykonywania wielu przepływów danych usługa uruchamia oddzielne klastry Spark dla każdego działania. Dzięki temu każde zadanie może być izolowane i uruchamiane równolegle, ale spowoduje to jednoczesne uruchomienie wielu klastrów.

Jeśli przepływy danych są wykonywane równolegle, zalecamy, aby nie włączać czasu środowiska Azure IR na żywo, ponieważ prowadzi do wielu nieużywanych ciepłych pul.

Napiwek

Zamiast wielokrotnie uruchamiać ten sam przepływ danych w obiekcie dla każdego działania, należy przygotować dane w usłudze Data Lake i użyć ścieżek wieloznacznych do przetwarzania danych w jednym przepływie danych.

Sekwencyjnie wykonywanie przepływów danych

Jeśli wykonasz działania przepływu danych w sekwencji, zaleca się ustawienie czasu wygaśnięcia w konfiguracji środowiska Azure IR. Usługa ponownie używa zasobów obliczeniowych, co skutkuje szybszym czasem uruchamiania klastra. Każde działanie jest nadal izolowane i otrzymuje nowy kontekst platformy Spark dla każdego wykonania.

Przeciążanie pojedynczego przepływu danych

Jeśli umieścisz całą logikę wewnątrz jednego przepływu danych, usługa wykonuje całe zadanie w jednym wystąpieniu platformy Spark. Chociaż może to wydawać się sposobem na zmniejszenie kosztów, łączy ze sobą różne przepływy logiczne i może być trudne do monitorowania i debugowania. Jeśli jeden składnik ulegnie awarii, wszystkie pozostałe części zadania również kończą się niepowodzeniem. Zalecane jest organizowanie przepływów danych według niezależnych przepływów logiki biznesowej. Jeśli przepływ danych stanie się zbyt duży, podzielenie go na oddzielne składniki ułatwia monitorowanie i debugowanie. Chociaż nie ma twardego limitu liczby przekształceń w przepływie danych, zbyt wiele sprawia, że zadanie jest złożone.

Równoległe wykonywanie ujść

Domyślnym zachowaniem ujścia przepływu danych jest wykonanie każdego ujścia sekwencyjnie, w sposób szeregowy i niepowodzenie przepływu danych w przypadku wystąpienia błędu w ujściu. Ponadto wszystkie ujścia są domyślne dla tej samej grupy, chyba że przejdziesz do właściwości przepływu danych i ustawisz różne priorytety ujścia.

Przepływy danych umożliwiają grupowanie ujść razem w grupy z karty właściwości przepływu danych w projektancie interfejsu użytkownika. Można ustawić kolejność wykonywania ujść i grupować ujścia razem przy użyciu tej samej liczby grupy. Aby ułatwić zarządzanie grupami, możesz poprosić usługę o uruchomienie ujścia w tej samej grupie, aby uruchamiała się równolegle.

W potoku wykonaj działanie przepływu danych w sekcji "Właściwości ujścia" jest opcją włączenia ładowania równoległego ujścia. Po włączeniu opcji "uruchamianie równolegle" instruujesz przepływy danych zapisywane w połączonych ujściach w tym samym czasie, a nie w sposób sekwencyjny. Aby można było korzystać z opcji równoległej, ujścia muszą być zgrupowane i połączone z tym samym strumieniem za pośrednictwem nowej gałęzi lub podziału warunkowego.

Uzyskiwanie dostępu do szablonów baz danych usługi Azure Synapse w potokach

Szablon bazy danych usługi Azure Synapse można użyć podczas tworzenia potoku. Podczas tworzenia nowego przepływu danych w ustawieniach źródła lub ujścia wybierz pozycję Baza danych obszaru roboczego. Lista rozwijana bazy danych zawiera listę baz danych utworzonych za pomocą szablonu bazy danych. Opcja Baza danych obszaru roboczego jest dostępna tylko dla nowych przepływów danych, ale nie jest dostępna, gdy używasz istniejącego potoku z galerii programu Synapse Studio.

Zobacz inne artykuły Przepływ danych związane z wydajnością: