你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是团队数据科学过程?

Azure 机器学习

Team Data Science Process (TDSP) 是一种敏捷的迭代数据科学方法,可用于高效交付预测分析解决方案和 AI 应用程序。 TDSP 可建议团队角色如何最好地协同工作,从而帮助改善团队协作和学习。 TDSP 包括 Microsoft 和其他行业领导者的最佳做法和结构,可帮助团队成功实施数据科学计划并充分实现分析计划的优势。

本文提供 TDSP 及其主要组件的概述。 其中提供了有关如何使用 Microsoft 工具和基础结构实现 TDSP 的指导。 可以在整个文章中找到更详细的资源。

TDSP 的关键组件

TDSP 具有以下关键组成部分:

  • 数据科学生命周期定义
  • 标准化项目结构
  • 推荐数据科学项目使用的基础结构和资源
  • 推荐用于项目执行的工具和实用程序

数据科学生命周期

TDSP 提供可用于构建数据科学项目开发的生命周期。 该生命周期概述了成功的项目所遵循的完整步骤。

你可以将基于任务的 TDSP 与其他数据科学生命周期相结合,如数据挖掘的跨行业标准过程 (CRISP-DM)、数据库中的知识发现 (KDD) 流程或其他定制过程。 从较高层面讲,这些不同的方法具有很多共性。

如果你有一个属于智能应用程序的数据科学项目,则应使用此生命周期。 智能应用程序部署机器学习或 AI 模型以进行预测分析。 你还可以将此过程用于探索性数据科学项目和即席分析项目。

TDSP 生命周期由团队以迭代方式执行的 5 个主要阶段组成。 这些阶段包括:

此处直观地展示了 TDSP 生命周期:

Diagram that shows the stages of the TDSP lifecycle.

有关每个阶段的目标、任务和文档项目的信息,请参阅 Team Data Science Process 生命周期

这些任务和项目与项目角色相关联,例如:

  • 解决方案架构师。
  • 项目经理。
  • 数据工程师。
  • 数据科学家、
  • 应用程序开发人员。
  • 项目主管。

下图显示了与这些角色(纵轴)的各个生命周期阶段(横轴)关联的任务(蓝色)和项目(绿色)。

Diagram that shows the tasks and artifacts for each stage.

标准化项目结构

你的团队可以使用 Azure 基础结构来组织数据科学资产。

Azure 机器学习支持开源 MLflow。 建议使用 MLflow 进行数据科学和 AI 项目管理。 MLflow 旨在管理完整的机器学习生命周期。 它在不同的平台上训练和提供模型,因此,无论试验在何处运行,都可以使用一组一致的工具。 可以在计算机本地、远程计算目标、虚拟机或机器学习计算实例上使用 MLflow。

MLflow 由多个关键功能组成:

  • 跟踪试验:使用 MLflow,可以跟踪试验,包括参数、代码版本、指标和输出文件。 此功能可帮助你有效地比较不同的运行和管理试验过程。

  • 包代码:它提供一种标准化格式来打包机器学习代码,其中包括依赖项和配置。 通过此打包,可以更轻松地重现运行并与其他人共享代码。

  • 管理模型:MLflow 提供管理模型并对其进行版本控制的功能。 它支持各种机器学习框架,因此可以存储、提供模型并对其进行版本控制。

  • 提供和部署模型:MLflow 集成了模型服务和部署功能,因此你可以在不同的环境中轻松部署模型。

  • 注册模型:你可以管理模型的生命周期,包括版本控制、阶段转换和批注。 MLflow 可用于在协作环境中维护集中式模型存储。

  • 使用 API 和 UI:在 Azure 中,MLflow 捆绑在机器学习 API 版本 2 中,以便你可以以编程方式与系统交互。 可以使用 Azure 门户与 UI 交互。

MLflow 旨在简化和标准化从试验到部署的机器学习开发过程。

机器学习与 Git 存储库集成,因此可以使用与 Git 兼容的服务:GitHub、GitLab、Bitbucket、Azure DevOps 或其他与 Git 兼容的服务。 除了已在机器学习中跟踪的资产之外,你的团队还可以在其 Git 兼容的服务中开发自己的分类,以存储其他项目信息,例如:

  • 文档
    • 项目,例如最终项目报表
    • 数据报表,例如数据字典或数据质量报表
    • 模型,例如模型报表
  • 代码
    • 数据准备
    • 模型开发
    • 操作化,包括安全性和符合性

基础结构和资源

TDSP 提供了有关管理共享分析和存储基础结构的建议,例如:

  • 用于存储数据集的云文件系统
  • 数据库
  • 大数据群集,例如 SQL 或 Spark
  • 机器学习服务

可以将存储原始数据集和已处理数据集的分析和存储基础结构放置在云中或本地。 此基础结构实现重现的分析。 它还可以防止重复,这可能导致不一致和不必要的基础结构成本。 基础结构具有用于预配共享资源、跟踪共享资源并允许每个团队成员安全地连接到这些资源的工具。 让项目成员创建一致的计算环境也是一种很好的做法。 然后,不同的团队成员可以复制和验证试验。

下面是一个团队处理多个项目并共享各种云分析基础结构组件的示例:

Diagram that shows the infrastructure of a team.

工具和实用工具

在大多数组织中,引入流程具有挑战性。 基础结构提供了实现 TDSP 的工具,生命周期有助于降低采用 TDSP 的障碍并提高其采用的一致性。

借助机器学习,数据科学家可以将开源工具作为数据科学管道或工作流的一部分应用。 在机器学习中,Microsoft 推广负责任 AI 工具,这有助于实现 Microsoft 的负责任 AI 标准

同行评审的引文

TDSP 是一种在 Microsoft 参与中采用的成熟方法,因此已在同行评审的文献中记录和研究。 这些引文提供了调查 TDSP 功能和应用程序的机会。 有关引文列表,请参阅生命周期概述页

Team Data Science Process 中的角色和任务