深度學習

本文簡要介紹如何使用 PyTorch、Tensorflow 和分散式定型,在 Azure Databricks 上開發及微調深度學習模型。 它也包含頁面的連結,以及說明如何使用這些工具的範例筆記本。

  • 如需優化 Azure Databricks 上深度學習工作流程的一般指導方針,請參閱 Azure Databricks 上的深度學習最佳做法。
  • 如需在 Azure Databricks 上使用大型語言模型和產生的 AI 的相關信息,請參閱:

PyTorch

PyTorch 包含在 Databricks Runtime ML 中,並提供 GPU 加速的張量運算和高階功能,以建置深度學習網路。 您可以使用 Databricks 上的 PyTorch 執行單一節點定型或分散式定型。 請參閱 PyTorch

TensorFlow

Databricks Runtime ML 包含 TensorFlow 和 TensorBoard,因此您可以使用這些連結庫,而不需要安裝任何套件。 TensorFlow 支援 CPU、GPU 和 GPU 叢集上的深度學習和一般數值計算。 TensorBoard 提供可視化工具,可協助您偵錯和優化機器學習和深度學習工作流程。 如需單一節點和分散式定型範例,請參閱 TensorFlow

分散式訓練

因為深度學習模型是數據和計算密集型,因此分散式定型可能很重要。 如需使用與 Horovod、 spark-tensorflow-distributor、TorchDistributor 和 DeepSpeed 整合的分散式深度學習範例,請參閱 分散式訓練

追蹤深度學習模型開發

追蹤仍然是 MLflow 生態系統的基石,對於深度學習的反覆本質尤其重要。 Databricks 使用 MLflow 來追蹤深度學習定型執行和模型開發。 請參閱 使用 MLflow 追蹤模型開發。