Hluboké učení

Tento článek poskytuje stručný úvod k používání PyTorch, Tensorflow a distribuovaného trénování pro vývoj a vyladění modelů hlubokého učení v Azure Databricks. Obsahuje také odkazy na stránky s ukázkovými poznámkovými bloky, které ilustrují, jak tyto nástroje používat.

PyTorch

PyTorch je součástí databricks Runtime ML a poskytuje akcelerované výpočty tensoru GPU a vysoké funkce pro vytváření sítí hlubokého učení. V Databricks můžete provádět trénování s jedním uzlem nebo distribuované trénování pomocí PyTorchu. Viz PyTorch.

TensorFlow

Databricks Runtime ML obsahuje TensorFlow a TensorBoard, takže tyto knihovny můžete používat bez instalace balíčků. TensorFlow podporuje hluboké učení a obecné číselné výpočty v procesorech, GPU a clusterech GPU. TensorBoard poskytuje vizualizační nástroje, které vám pomůžou ladit a optimalizovat pracovní postupy strojového učení a hlubokého učení. Viz TensorFlow pro jeden uzel a distribuované příklady trénování.

Distribuované trénování

Vzhledem k tomu, že modely hlubokého učení jsou data a výpočty náročné, může být distribuované trénování důležité. Příklady distribuovaného hlubokého učení s využitím integrací s horovodem, spark-tensorflow-distributor, TorchDistributor a DeepSpeed najdete v tématu Distribuované trénování.

Sledování vývoje modelů hlubokého učení

Sledování zůstává základním kamenem ekosystému MLflow a je zvláště důležité pro iterativní povahu hlubokého učení. Databricks používá MLflow ke sledování trénovacích běhů hlubokého učení a vývoje modelů. Viz Sledování vývoje modelů pomocí MLflow.