AI a strojové Učení v Databricks

Tento článek popisuje nástroje, které Poskytuje Azure Databricks, které vám pomůžou sestavovat a monitorovat pracovní postupy AI a ML. Diagram znázorňuje, jak tyto komponenty spolupracují, abyste mohli implementovat proces vývoje a nasazení modelu.

Diagram strojového učení: Vývoj a nasazení modelů v Databricks

Proč používat Databricks pro strojové učení a hluboké učení?

Pomocí Azure Databricks můžete implementovat celý životní cyklus ML na jedné platformě s kompletními zásadami správného řízení v rámci kanálu ML. Azure Databricks obsahuje následující integrované nástroje pro podporu pracovních postupů ML:

  • Katalog Unity pro zásady správného řízení, zjišťování, správu verzí a řízení přístupu pro data, funkce, modely a funkce.
  • Monitorování Lakehouse pro monitorování dat
  • Příprava a obsluha funkcí
  • Podpora životního cyklu modelu:
  • Pracovní postupy Databricks pro automatizované pracovní postupy a kanály ETL připravené pro produkční prostředí
  • Složky Gitu Databricks pro správu kódu a integraci Gitu

Hluboké učení v Databricks

Konfigurace infrastruktury pro aplikace hlubokého učení může být obtížná.

Databricks Runtime pro machine Učení se o to postará za vás– s clustery, které mají integrované kompatibilní verze nejběžnějších knihoven hlubokého učení, jako jsou TensorFlow, PyTorch a Keras, a podpůrné knihovny, jako jsou Petastorm, Hyperopt a Horovod. Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Podporuje také knihovny, jako je Ray , aby paralelizoval výpočetní zpracování pro škálování pracovních postupů ML a aplikací umělé inteligence.

Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Služba Databricks Model Serving umožňuje vytvářet škálovatelné koncové body GPU pro modely hlubokého učení bez další konfigurace.

Pro aplikace strojového učení doporučuje Databricks používat cluster se spuštěným Modulem Databricks Runtime pro machine Učení. Viz Vytvoření clusteru pomocí Databricks Runtime ML.

Pokud chcete začít s hloubkovým učením v Databricks, přečtěte si:

Velké jazykové modely (LLM) a generování umělé inteligence v Databricks

Databricks Runtime pro machine Učení zahrnuje knihovny, jako je Hugging Face Transformers a LangChain, které umožňují integrovat existující předem natrénované modely nebo jiné opensourcové knihovny do pracovního postupu. Integrace Databricks MLflow usnadňuje používání služby sledování MLflow s transformátorovými kanály, modely a komponentami zpracování. Kromě toho můžete integrovat modely OpenAI nebo řešení od partnerů, jako je John Snow Labs , do pracovních postupů Azure Databricks.

Pomocí Azure Databricks můžete přizpůsobit LLM pro vaše data pro konkrétní úlohu. Díky podpoře opensourcových nástrojů, jako je Hugging Face a DeepSpeed, můžete efektivně využít základní LLM a vytrénovat je vlastními daty, abyste zlepšili jeho přesnost pro vaši konkrétní doménu a úlohu. Pak můžete využít vlastní LLM v generovaných aplikacích AI.

Kromě toho Databricks poskytuje rozhraní API pro základní modely a externí modely , které umožňují přístup k špičkovým otevřeným modelům a dotazování na nich z obslužného koncového bodu. Vývojáři můžou pomocí rozhraní API pro základní modely rychle a snadno vytvářet aplikace, které využívají vysoce kvalitní model generující AI, aniž by si zachovali vlastní nasazení modelu.

Pro uživatele SQL databricks poskytuje funkce AI, které můžou datoví analytici SQL použít pro přístup k modelům LLM, včetně openAI, přímo v rámci svých datových kanálů a pracovních postupů. Viz funkce AI v Azure Databricks.

Databricks Runtime pro machine Učení

Databricks Runtime pro Machine Učení (Databricks Runtime ML) automatizuje vytváření clusteru s předem vytvořenou infrastrukturou strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL. Úplný seznam knihoven v každé verzi Databricks Runtime ML najdete v poznámkách k verzi.

Pokud chcete získat přístup k datům v katalogu Unity pro pracovní postupy strojového učení, musí být režim přístupu clusteru jeden uživatel (přiřazený). Sdílené clustery nejsou kompatibilní s modulem Databricks Runtime pro Učení počítače. Kromě toho databricks Runtime ML není podporován v clusterech nebo clusterech TableACLs s nastaveným spark.databricks.pyspark.enableProcessIsolation config nastavením true.

Vytvoření clusteru pomocí Databricks Runtime ML

Při vytváření clusteru vyberte v rozevírací nabídce verze Modulu runtime Databricks verzi databricks RUNTIME ML. K dispozici jsou moduly runtime ML s podporou procesoru i GPU.

Výběr databricks Runtime ML

Pokud v poznámkovém bloku vyberete cluster z rozevírací nabídky, zobrazí se v pravé části názvu clusteru verze Databricks Runtime:

Zobrazení verze ml modulu runtime Databricks

Pokud vyberete modul runtime ML s podporou GPU, zobrazí se výzva k výběru kompatibilního typu ovladače a typu pracovního procesu. Nekompatibilní typy instancí se v rozevírací nabídce zobrazují šedě. Typy instancí s podporou GPU jsou uvedeny pod popiskem akcelerovaných GPU.

Poznámka:

Pokud chcete získat přístup k datům v katalogu Unity pro pracovní postupy strojového učení, musí být režim přístupu clusteru jeden uživatel (přiřazený). Sdílené clustery nejsou kompatibilní s modulem Databricks Runtime pro Učení počítače.

Knihovny zahrnuté v databricks Runtime ML

Databricks Runtime ML zahrnuje celou řadu oblíbených knihoven ML. Knihovny se aktualizují s každou verzí, aby zahrnovaly nové funkce a opravy.

Databricks určila podmnožinu podporovaných knihoven jako knihovny nejvyšší úrovně. Pro tyto knihovny poskytuje Databricks rychlejší tempo aktualizace a aktualizaci na nejnovější verze balíčků s každou verzí modulu runtime (blokování konfliktů závislostí). Databricks také poskytuje pokročilou podporu, testování a vložené optimalizace pro knihovny nejvyšší úrovně.

Úplný seznam nejvyšších a dalších poskytovaných knihoven najdete v poznámkách k verzi pro Databricks Runtime ML.

Další kroky

Pokud chcete začít, přečtěte si:

Doporučený pracovní postup MLOps na počítači Databricks Učení najdete tady:

Informace o klíčových funkcích služby Databricks Machine Učení najdete tady: