模型训练示例

本部分包含的示例介绍如何在 Azure Databricks 上使用很多常用的开源库训练机器学习和深度学习模型。

还可使用 Databricks AutoML,它可自动准备用于训练模型的数据集、使用开源库(如 scikit-learn 和 XGBoost)执行一组试验,并使用每次试验运行的源代码创建一个 Python 笔记本,以便你查看、重现和修改代码。

机器学习示例

笔记本 功能
scikit-learn 机器学习快速入门 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化
scikit-learn 使用模型注册表的机器学习 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化、模型注册表
scikit-learn 端到端示例 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化、XGBoost、模型注册表、模型处理
MLlib MLlib 示例 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器
xgboost XGBoost 示例 Python、PySpark 和 Scala、单节点工作负载和分布式训练

深度学习示例

另请参阅 Azure Databricks 上有关深度学习的最佳做法

笔记本 功能
TensorFlow Keras 深度学习快速入门 TensorFlow Keras、TensorBoard、Hyperopt、MLflow
TensorFlow(单节点) 使用 MNIST 数据集的 TensorFlow 教程 TensorFlow、TensorBoard
PyTorch(单节点) 使用 MNIST 数据集的 PyTorch 教程 PyTorch

有关分布式深度学习训练,请参阅:

笔记本 功能
HorovodRunner (TensorFlow Keras) TensorFlow Keras MNIST 示例 TensorFlow Keras 单节点到分布式训练
HorovodRunner (PyTorch) PyTorch MNIST 示例 PyTorch 单节点到分布式训练
HorovodRunner Horovod 时间线 Horovod 时间线
horovod.spark(PyTorch 和 Keras) horovod.spark 包 用于使用 Keras 和 PyTorch 的 ML 管道的 horovod.spark 估算器 API
spark-tensorflow-distributor 使用 TensorFlow 进行分布式训练 在 Apache Spark 群集上使用 TensorFlow 进行分布式训练

超参数优化示例

有关 Azure Databricks 中超参数优化的常规信息,请参阅超参数优化

笔记本 功能
Hyperopt 分布式 hyperopt 分布式 hyperopt、scikit-learn、MLflow
Hyperopt 比较模型 使用分布式 hyperopt 同时搜索不同模型类型的超参数空间
Hyperopt 分布式训练算法和 hyperopt Hyperopt、MLlib
Hyperopt Hyperopt 最佳做法 不同大小的数据集的最佳做法