您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

什么是团队数据科学过程?

Team Data Science Process (TDSP) 是一种敏捷的迭代式数据科学方法,可有效交付预测分析解决方案和智能应用程序。 TDSP 通过建议团队角色如何最好地协同工作来帮助改进团队协作和学习。 TDSP 包含 Microsoft 和其他行业领导者的最佳做法和结构,以帮助成功实施数据科学计划。 其目标是帮助公司完全实现其分析程序的优势。

本文提供 TDSP 及其主要组件的概述。 我们在这里提供了可以使用各种工具实现的过程的一般说明。 其他链接主题中提供了过程生命周期所涉及的项目任务和角色的更详细说明。 此外,还提供了有关如何使用一套具体 Microsoft 工具和基础结构实现 TDSP 的指导(我们的团队就是使用这些工具和基础结构来实现 TDSP)。

TDSP 的关键组件

TDSP 包括以下关键组件:

  • 数据科学生命周期 定义
  • 标准化项目结构
  • 推荐数据科学项目使用的 基础结构和资源
  • 推荐用于项目执行的 工具和实用程序

数据科学生命周期

Team Data Science Process (TDSP) 提供用于构建数据科学项目开发的生命周期。 该生命周期概述了成功的项目所遵循的完整步骤。

如果使用其他数据科学生命周期,如 CRISP-DMKDD 或组织自己的自定义过程,仍可在这些开发生命周期的上下文中使用基于任务的 TDSP。 从较高层面讲,这些不同的方法具有很多共性。

此生命周期面向作为智能应用程序一部分交付的数据科学项目。 这些应用程序部署机器学习或人工智能模型以进行预测分析。 探索性数据科学项目或即席分析项目也可以从使用此过程获益。 但在这种情况下可能不需要某些所述的步骤。

该生命周期概述了项目通常执行的主要阶段(通常以迭代方式进行):

  • 了解业务
  • 数据采集和理解
  • 建模
  • 部署

以下是 Team Data Science Process 生命周期 的可视化表示形式 。

关系图显示了数据科学生命周期,包括业务理解、数据采集/理解、建模和部署。

Team Data Science Process 生命周期主题中介绍了 TDSP 中每个生命周期阶段的目标、任务和文档项目。 这些任务和项目与项目角色相关联:

  • 解决方案架构师
  • 项目经理
  • 数据工程师
  • 数据科学家
  • 应用程序开发人员
  • 项目主管

下图提供了与这些角色(纵轴)的每个生命周期阶段(横轴)相关联的任务(蓝色)和项目(绿色)的网格视图。

TDSP-roles-and-tasks

标准化项目结构

让所有项目共享一个目录结构并对项目文档使用模板可以方便团队成员查找有关其项目的信息。 所有代码和文档存储在 Git、TFS 或 Subversion 等版本控制系统 (VCS) 中,以实现团队协作。 在 Jira、Rally 和 Azure DevOps 等敏捷项目跟踪系统中跟踪任务和功能可以更密切地跟踪各项功能的代码。 此类跟踪还可让团队获得更准确的成本估算。 TDSP 建议在 VCS 中为每个项目创建一个独立的存储库,以实现版本控制、信息安全和协作。 为所有项目建立标准化结构有助于在整个组织中积累系统性的认知。

我们在标准位置为文件夹结构和所需的文档提供模板。 此文件夹结构可以组织包含用于数据探索和特征提取以及记录模型迭代的代码的文件。 这些模板可让团队成员更轻松地了解其他人完成的工作,以及将新成员添加到团队。 可以使用标记格式轻松查看和更新文档模板。 使用模板提供包含每个项目关键问题的清单,以确保完善定义问题,并且可交付结果满足预期的质量。 示例包括:

  • 用于陈述业务问题和项目范围的项目纲领
  • 用于陈述原始数据的结构和统计信息的数据报告
  • 用于陈述派生特征的模型报告
  • 模型性能指标,例如 ROC 曲线或 MSE

TDSP-directories

可以从 GitHub 克隆目录结构。

数据科学项目的基础结构和资源

TDSP 提供有关管理共享分析和存储基础结构的建议,例如:

  • 用于存储数据集的云文件系统
  • 数据库
  • 大数据(SQL 或 Spark)群集
  • 机器学习服务

存储原始数据集和已处理数据集的分析和存储基础结构可能位于云中或本地。 此基础结构实现重现的分析。 它还可以避免重复,防止产生不一致情况和不必要的基础结构成本。 TDSP 提供了工具用于预配和跟踪共享资源,并让每位团队成员安全连接到这些资源。 让项目成员创建一致的计算环境也是一种不错的做法。 然后,不同的团队成员可以复制和验证试验。

下面是团队处理多个项目和共享各个云分析基础结构组件的示例。

TDSP-infrastructure

用于项目执行的工具和实用程序

在大多数组织中引入过程很有难度。 TDSP 提供了工具用于实现数据科学过程和生命周期,帮助削减屏障,提高客户的采用一致性。 TDSP 提供了一套初始工具和脚本,帮助在团队中快速采用 TDSP。 另外,它还帮助自动完成数据科学生命周期中的某些常见任务,例如数据探索和基线建模。 提供了一个妥善定义的结构,供个人将共享工具和实用程序贡献到团队的共享代码存储库中。 然后,这些资源可由团队或组织中的其他项目利用。 Microsoft 在 Azure 机器学习中提供了丰富的工具,前者既支持开源工具(Python、R、ONNX 和常见的深度学习框架)也支持 Microsoft 自己的工具 (AutoML)。

后续步骤

Team Data Science Process:角色和任务概述了致力于标准化此过程的数据科学团队的关键人员角色及其相关任务。