模型训练示例
本部分包含的示例介绍如何在 Azure Databricks 上使用很多常用的开源库训练机器学习和深度学习模型。
还可使用 Databricks AutoML,它可自动准备用于训练模型的数据集、使用开源库(如 scikit-learn 和 XGBoost)执行一组试验,并使用每次试验运行的源代码创建一个 Python 笔记本,以便你查看、重现和修改代码。
机器学习示例
| 包 | 笔记本 | 功能 |
|---|---|---|
| scikit-learn | 机器学习快速入门 | 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化 |
| scikit-learn | 使用模型注册表的机器学习 | 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化、模型注册表 |
| scikit-learn | 端到端示例 | 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化、XGBoost、模型注册表、模型处理 |
| MLlib | MLlib 示例 | 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器 |
| xgboost | XGBoost 示例 | Python、PySpark 和 Scala、单节点工作负载和分布式训练 |
深度学习示例
另请参阅 Azure Databricks 上有关深度学习的最佳做法。
| 包 | 笔记本 | 功能 |
|---|---|---|
| TensorFlow Keras | 深度学习快速入门 | TensorFlow Keras、TensorBoard、Hyperopt、MLflow |
| TensorFlow(单节点) | 使用 MNIST 数据集的 TensorFlow 教程 | TensorFlow、TensorBoard |
| PyTorch(单节点) | 使用 MNIST 数据集的 PyTorch 教程 | PyTorch |
有关分布式深度学习训练,请参阅:
| 包 | 笔记本 | 功能 |
|---|---|---|
| HorovodRunner (TensorFlow Keras) | TensorFlow Keras MNIST 示例 | TensorFlow Keras 单节点到分布式训练 |
| HorovodRunner (PyTorch) | PyTorch MNIST 示例 | PyTorch 单节点到分布式训练 |
| HorovodRunner | Horovod 时间线 | Horovod 时间线 |
horovod.spark(PyTorch 和 Keras) |
horovod.spark 包 | 用于使用 Keras 和 PyTorch 的 ML 管道的 horovod.spark 估算器 API |
spark-tensorflow-distributor |
使用 TensorFlow 进行分布式训练 | 在 Apache Spark 群集上使用 TensorFlow 进行分布式训练 |
超参数优化示例
有关 Azure Databricks 中超参数优化的常规信息,请参阅超参数优化。
| 包 | 笔记本 | 功能 |
|---|---|---|
| Hyperopt | 分布式 hyperopt | 分布式 hyperopt、scikit-learn、MLflow |
| Hyperopt | 比较模型 | 使用分布式 hyperopt 同时搜索不同模型类型的超参数空间 |
| Hyperopt | 分布式训练算法和 hyperopt | Hyperopt、MLlib |
| Hyperopt | Hyperopt 最佳做法 | 不同大小的数据集的最佳做法 |