Zarządzanie konfiguracją potoków tabel na żywo delty

Artykuł
04/19/2024

Ponieważ delta Live Tables automatyzuje złożoność operacyjną, takie jak zarządzanie infrastrukturą, orkiestracja zadań, odzyskiwanie błędów i optymalizacja wydajności, wiele potoków może działać z minimalną konfiguracją ręczną. Jednak tabele delta Live Tables umożliwiają również zarządzanie konfiguracją potoków wymagających konfiguracji innych niż domyślne lub optymalizację wydajności i użycia zasobów. Te artykuły zawierają szczegółowe informacje na temat zarządzania konfiguracjami potoków tabel delta Live Tables, w tym ustawień określających sposób uruchamiania potoków, opcje obliczeń, które uruchamiają potok, oraz zarządzanie zależnościami zewnętrznymi, takimi jak biblioteki języka Python.

Zarządzanie ustawieniami potoku

Konfiguracja potoku delta live tables zawiera ustawienia definiujące kod źródłowy implementujący potok. Obejmuje również ustawienia kontrolujące infrastrukturę potoku, zarządzanie zależnościami, sposób przetwarzania aktualizacji oraz sposób zapisywania tabel w obszarze roboczym. Większość konfiguracji jest opcjonalna, ale niektóre wymagają starannej uwagi.

Aby dowiedzieć się więcej o opcjach konfiguracji potoków i sposobie ich używania, zobacz Konfigurowanie ustawień potoku dla tabel na żywo delty.

Aby uzyskać szczegółowe specyfikacje ustawień tabel delta Live Tables, właściwości kontrolujące sposób zarządzania tabelami i niezwiązane opcje obliczeniowe, zobacz Informacje o właściwościach tabel na żywo funkcji Delta.

Zarządzanie zależnościami zewnętrznymi dla potoków korzystających z języka Python

Usługa Delta Live Tables obsługuje używanie zależności zewnętrznych w potokach, takich jak pakiety języka Python i biblioteki. Aby dowiedzieć się więcej o opcjach i zaleceniach dotyczących używania zależności, zobacz Zarządzanie zależnościami języka Python dla potoków tabel na żywo usługi Delta.

Używanie modułów języka Python przechowywanych w obszarze roboczym usługi Azure Databricks

Oprócz implementowania kodu w języku Python w notesach usługi Databricks można używać folderów Git usługi Databricks lub plików obszarów roboczych do przechowywania kodu jako modułów języka Python. Przechowywanie kodu jako modułów języka Python jest szczególnie przydatne, gdy masz typowe funkcje, które mają być używane w wielu potokach lub wielu notesach w tym samym potoku. Aby dowiedzieć się, jak używać modułów języka Python z potokami, zobacz Importowanie modułów języka Python z folderów git lub plików obszarów roboczych.

Optymalizowanie wykorzystania zasobów obliczeniowych potoku

Użyj rozszerzonego skalowania automatycznego, aby zoptymalizować wykorzystanie klastra potoków. Rozszerzone skalowanie automatyczne dodaje dodatkowe zasoby tylko wtedy, gdy system określi te zasoby, zwiększy szybkość przetwarzania potoku. Zasoby są zwalniane, gdy nie są już potrzebne, a klastry są zamykane natychmiast po zakończeniu wszystkich aktualizacji potoku.

Aby dowiedzieć się więcej na temat rozszerzonego skalowania automatycznego, w tym szczegółów konfiguracji, zobacz Optymalizowanie wykorzystania klastra potoków tabel na żywo różnicowych przy użyciu rozszerzonego skalowania automatycznego.

Share via