Databricks Runtime dla Machine Learning

Databricks Runtime for Machine Learning (Databricks Runtime ML) automatyzuje tworzenie klastra zoptymalizowanego pod kątem uczenia maszynowego. Databricks Runtime ML obejmują najpopularniejsze biblioteki uczenia maszynowego, takie jak TensorFlow, PyTorch, Keras i XGBoost, a także zawierają biblioteki wymagane do trenowania rozproszonego, takie jak Horovod. Użycie Databricks Runtime ML przyspiesza tworzenie klastra i zapewnia zgodność zainstalowanych wersji bibliotek.

Aby uzyskać pełne informacje na temat używania Azure Databricks uczenia maszynowego i uczenia głębokiego, zobacz Przewodnik po uczeniu maszynowym Machine Learning Databricks.

Aby uzyskać informacje o zawartości poszczególnych wersji Databricks Runtime ML, zobacz informacje o wersji.

Databricks Runtime ML jest zbudowany na Databricks Runtime. Na przykład wersja Databricks Runtime 7.3 LTS dla Machine Learning jest zbudowana w Databricks Runtime 7.3 LTS. Biblioteki zawarte w bazie danych Databricks Runtime są wymienione w informacjach o Databricks Runtime wersji.

Wprowadzenie do Databricks Runtime dla Machine Learning

Ten samouczek jest przeznaczony dla nowych użytkowników Databricks Runtime ML. Praca trwa około 10 minut i przedstawia pełny przykład ładowania danych tabelarowych, trenowania modelu, rozproszonego dostrajania hiperparametrów i wnioskowania modelu. Pokazano w nim również, jak używać interfejsu API MLflow i rejestru modeli MLflow.

Notes samouczka dotyczący aplikacji Databricks

Pobierz notes

Biblioteki zawarte w programie Databricks Runtime ML

Ten Databricks Runtime ML zawiera różne popularne biblioteki ML biblioteki. Biblioteki są aktualizowane w każdej wersji w celu dołączyć nowe funkcje i poprawki.

Azure Databricks wyznaczył podzestaw obsługiwanych bibliotek jako biblioteki najwyższego poziomu. W przypadku tych bibliotek Azure Databricks szybsze aktualizowanie, aktualizując do najnowszych wersji pakietów z każdym wydaniem środowiska uruchomieniowego (co powoduje konflikty zależności). Azure Databricks zapewnia również zaawansowaną obsługę, testowanie i optymalizacje osadzone dla bibliotek najwyższego poziomu.

Aby uzyskać pełną listę bibliotek najwyższej warstwy i innych dostępnych bibliotek, zobacz następujące artykuły dotyczące każdego dostępnego środowiska uruchomieniowego:

Jak używać Databricks Runtime ML

Oprócz wstępnie zainstalowanych bibliotek, Databricks Runtime ML różni się od Databricks Runtime konfiguracji klastra i sposobu zarządzania pakietami języka Python.

Tworzenie klastra przy użyciu Databricks Runtime ML

Podczas tworzenia klastra wybierzwersję Databricks Runtime ML z Databricks Runtime rozwijanej Wersja. Dostępne są środowiska uruchomieniowe ML procesora CPU i procesora GPU.

Select Databricks Runtime ML

W przypadku wybrania środowiska uruchomieniowego z ML procesora GPU zostanie wyświetlony monit o wybranie zgodnego typu sterownika i typu procesu roboczego. Niezgodne typy wystąpień są wyszarowane na liście rozwijanej. Typy wystąpień z obsługą procesora GPU są wymienione pod etykietą Przyspieszone procesory GPU.

Ostrzeżenie

Biblioteki w obszarze roboczym, które są automatycznie instalowane we wszystkich klastrach, mogą wchodzić w konflikt z bibliotekami dołączonymi do Databricks Runtime ML. Przed utworzeniem klastra z Databricks Runtime ML wyczyść pole wyboru Instaluj automatycznie we wszystkich klastrach, aby uzyskać biblioteki powodujące konflikt.

Zarządzanie pakietami języka Python

W Databricks Runtime wersji 9.0 ML i instalowania pakietów języka Python jest używany menedżer pakietów virtualenv. Wszystkie pakiety języka Python są instalowane w jednym środowisku: /databricks/python3 .

W Databricks Runtime 8.4 ML i poniższych do instalowania pakietów języka Python jest używany menedżer pakietów Conda. Wszystkie pakiety języka Python są instalowane w jednym środowisku: w klastrach korzystających z języka Python 2 i w klastrach /databricks/python2/databricks/python3 korzystających z języka Python 3. Przełączanie (lub aktywowanie) środowisk Conda nie jest obsługiwane.

Aby uzyskać informacje na temat zarządzania bibliotekami języka Python, zobacz Biblioteki.

Obsługa zautomatyzowanego uczenia maszynowego

Databricks Runtime ML narzędzia do automatyzacji procesu tworzenia modelu i efektywnego znalezienia najlepszego modelu.

  • AutoML automatycznie tworzy, dostraja i ocenia zestaw modeli oraz tworzy notes języka Python z kodem źródłowym dla każdego uruchomienia, aby można było przeglądać, odtwarzać i modyfikować kod.
  • Zarządzany przepływ MLFlow zarządza całym cyklem życia modelu, w tym śledzeniem przebiegów eksperymentalnych, wdrażaniem i udostępnianiem modeli oraz utrzymywaniem scentralizowanego rejestru modeli.
  • Hyperopt, rozszerzony o klasę , automatyzuje i dystrybuuje ML dostrajania parametrów modelu.