Co je Databricks Machine Learning?

Databricks Machine Learning je integrovaná ucelená platforma strojového učení, která zahrnuje spravované služby pro sledování experimentů, trénování modelů, vývoj funkcí a správu a obsluhu funkcí a modelů. Diagram ukazuje, jak se možnosti Databricks mapovat na kroky procesu vývoje a nasazení modelu.

What is Databricks Machine Learning?

S Databricks Machine Learning můžete:

Pro aplikace strojového učení poskytuje Databricks modul runtime Databricks pro Machine Learning, variantu modulu Databricks Runtime, která zahrnuje řadu oblíbených knihoven strojového učení.

funkce Databricks Machine Learning

Úložiště funkcí

Úložiště funkcí umožňuje katalog ML funkcí a zpřístupnit je pro trénování a obsluhu, což zvyšuje opakované použití. Díky vyhledávání funkcí založených na rodokmenu dat, které využívá automaticky protokolované zdroje dat, můžete zpřístupnit funkce pro trénování a obsluhu pomocí zjednodušeného nasazení modelu, které nevyžadují změny klientské aplikace.

Experimenty

Experimenty MLflow umožňují vizualizovat, vyhledávat a porovnávat spuštění a stahovat artefakty a metadata pro analýzu v jiných nástrojích. Stránka Experimenty umožňuje rychlý přístup k experimentům MLflow ve vaší organizaci. Vývoj modelů strojového učení můžete sledovat tak, že se k těmto experimentům přihlásíte z poznámkových bloků a úloh Azure Databricks.

Modely

Azure Databricks poskytuje hostované verze registru modelů MLflow, která vám pomůže spravovat celý životní cyklus modelů MLflow. Registr modelů poskytuje chronologický rodokmen modelu (který experiment MLflow a spuštění vytvořil model v daném okamžiku), správu verzí modelu, přechody fází (například z přípravy do produkčního prostředí nebo archivované) a e-mailová oznámení událostí modelu. Můžete také vytvořit a zobrazit popisy modelu a nechat komentáře.

AutoML

AutoML umožňuje automaticky generovat modely strojového učení z dat a zrychlit cestu k produkčnímu prostředí. Připraví datovou sadu pro trénování modelů a pak provede a zaznamená sadu zkušebních verzí, vytváření, ladění a vyhodnocování více modelů. Zobrazí výsledky a poskytuje poznámkový blok Pythonu se zdrojovým kódem pro každé zkušební spuštění, abyste mohli kód zkontrolovat, reprodukovat a upravovat. AutoML také vypočítá souhrnné statistiky datové sady a uloží tyto informace do poznámkového bloku, který můžete později zkontrolovat.

Modul runtime Databricks pro strojové učení

Databricks Runtime pro Machine Learning (Databricks Runtime ML) automatizuje vytváření clusteru optimalizovaného pro strojové učení. clustery Databricks runtime ML zahrnují nejoblíbenější knihovny strojového učení, jako jsou TensorFlow, PyTorch, Keras a XGBoost, a také knihovny potřebné pro distribuované trénování, jako je Horovod. Pomocí Databricks Runtime ML zrychlíte vytváření clusteru a zajistíte kompatibilitu verzí nainstalovaných knihoven.

Další kroky