Korzystanie z obliczeń usługi Azure Databricks z zadaniami

Artykuł
04/19/2024

Po uruchomieniu zadania usługi Azure Databricks zadania skonfigurowane jako część zadania są uruchamiane w obliczeniach usługi Azure Databricks, bezserwerowych zasobów obliczeniowych, klastra lub usługi SQL Warehouse w zależności od typu zadania. Wybranie typu obliczeniowego i opcji konfiguracji jest ważne podczas operacji zadania. Ten artykuł zawiera zalecenia dotyczące używania zasobów obliczeniowych usługi Azure Databricks do uruchamiania zadań.

Aby dowiedzieć się więcej na temat używania bezserwerowych obliczeń z zadaniami usługi Azure Databricks, zobacz Run your Azure Databricks job with serverless compute for workflows (Uruchamianie zadania usługi Azure Databricks z bezserwerowym obliczeniami dla przepływów pracy).

Uwaga

Wpisy tajne nie są redagowane z dziennika stdout i stderr strumieni sterowników spark klastra. Aby chronić dane poufne, domyślnie dzienniki sterowników platformy Spark są widoczne tylko przez użytkowników z uprawnieniami CAN MANAGE w zadaniu, trybie dostępu pojedynczego użytkownika i klastrach trybu dostępu współdzielonego. Aby zezwolić użytkownikom z uprawnieniem CAN ATTACH TO lub CAN RESTART, aby wyświetlić dzienniki w tych klastrach, ustaw następującą właściwość konfiguracji platformy Spark w konfiguracji klastra: spark.databricks.acl.needAdminPermissionToViewLogs false.

W przypadku klastrów trybu dostępu współużytkowanego bez izolacji dzienniki sterowników platformy Spark mogą być wyświetlane przez użytkowników z uprawnieniem CAN ATTACH TO lub CAN MANAGE. Aby ograniczyć, kto może odczytywać dzienniki tylko użytkownikom z uprawnieniami CAN MANAGE, ustaw wartość spark.databricks.acl.needAdminPermissionToViewLogstrue.

Zobacz Konfiguracja platformy Spark, aby dowiedzieć się, jak dodać właściwości platformy Spark do konfiguracji klastra.

Korzystanie z klastrów zadań udostępnionych

Aby zoptymalizować użycie zasobów za pomocą zadań, które organizujące wiele zadań, należy użyć udostępnionych klastrów zadań. Udostępniony klaster zadań umożliwia uruchomienie wielu zadań w tym samym zadaniu w celu ponownego użycia klastra. Można użyć jednego klastra zadań do uruchamiania wszystkich zadań, które są częścią zadania, lub wielu klastrów zadań zoptymalizowanych pod kątem określonych obciążeń. Aby użyć udostępnionego klastra zadań:

Po utworzeniu zadania wybierz pozycję Nowe klastry zadań i ukończ konfigurację klastra.
Wybierz nowy klaster podczas dodawania zadania do zadania lub utwórz nowy klaster zadań. Każdy klaster skonfigurowany podczas wybierania pozycji Nowe klastry zadań jest dostępny dla dowolnego zadania w zadaniu.

Udostępniony klaster zadań jest w zakresie jednego uruchomienia zadania i nie może być używany przez inne zadania lub uruchomienia tego samego zadania.

Nie można zadeklarować bibliotek w konfiguracji klastra zadań udostępnionych. Biblioteki zależne należy dodać w ustawieniach zadań.

Wybieranie prawidłowego typu klastra dla zadania

Nowe klastry zadań to dedykowane klastry dla zadania lub uruchomienia zadania. Udostępniony klaster zadań jest tworzony i uruchamiany, gdy pierwsze zadanie przy użyciu klastra uruchamia się i kończy działanie po zakończeniu ostatniego zadania przy użyciu klastra. Klaster nie jest przerywany w przypadku bezczynności, ale tylko po zakończeniu wszystkich zadań. Jeśli klaster zadań udostępnionych zakończy się niepowodzeniem lub zostanie zakończony przed zakończeniem wszystkich zadań, zostanie utworzony nowy klaster. Klaster o zakresie pojedynczego zadania jest tworzony i uruchamiany po uruchomieniu i zakończeniu zadania po zakończeniu zadania. W środowisku produkcyjnym usługa Databricks zaleca używanie nowych klastrów udostępnionych lub klastrów o zakresie zadań, tak aby każde zadanie lub zadanie było uruchamiane w w pełni izolowanym środowisku.
Po uruchomieniu zadania w nowym klastrze zadanie jest traktowane jako obciążenie inżynierii danych (zadanie) z uwzględnieniem cennika obciążenia zadania. Po uruchomieniu zadania w istniejącym klastrze all-purpose zadanie jest traktowane jako obciążenie analizy danych (wszystko przeznaczenie), z zastrzeżeniem cennika obciążenia ogólnego przeznaczenia.
Jeśli wybierzesz zakończony istniejący klaster, a właściciel zadania ma uprawnienie CAN RESTART, usługa Azure Databricks uruchamia klaster po zaplanowanym uruchomieniu zadania.
Istniejące klastry ogólnego przeznaczenia działają najlepiej w przypadku zadań, takich jak aktualizowanie pulpitów nawigacyjnych w regularnych odstępach czasu.

Użyj puli, aby skrócić czas uruchamiania klastra

Aby zmniejszyć czas rozpoczęcia nowego klastra zadań, utwórz pulę i skonfiguruj klaster zadania do korzystania z puli.

Korzystanie z obliczeń usługi Azure Databricks z zadaniami

Korzystanie z klastrów zadań udostępnionych

Wybieranie prawidłowego typu klastra dla zadania

Użyj puli, aby skrócić czas uruchamiania klastra

Opinia

Opinia

Dodatkowe zasoby