使用 MLlib 进行机器学习的教程

注意

Databricks Runtime ML 是使用 Azure Databricks 开发和部署机器学习模型的综合性工具。 它包括最常用的机器学习和深度学习库,以及 MLflow(一种用于跟踪和管理端到端机器学习生命周期的机器学习平台 API)。 有关详细信息,请参阅 Databricks 机器学习指南

Apache Spark 机器学习库 (MLlib) 使数据科学家能够专注于其数据问题和模型,而不是专注于解决围绕分布式数据的复杂性问题(例如基础结构、配置等)。 教程笔记本将引导你完成以下步骤:加载和预处理数据、使用 MLlib 算法训练模型、评估模型性能、优化模型以及进行预测。 它还说明了如何使用 MLlib 管道和 MLflow 机器学习平台。

笔记本

使用与群集上的 Databricks Runtime 版本相对应的笔记本。 如需更多机器学习示例,请参阅 Databricks 机器学习指南

MLlib 笔记本入门(Databricks Runtime 7.0 及更高版本)

获取笔记本

MLlib 笔记本入门(Databricks Runtime 5.5 LTS 或 6.x)

获取笔记本