你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Team Data Science Process 生命周期的业务理解阶段

本文概述了与 Team Data Science Process (TDSP) 的业务理解阶段相关联的目标、任务和可交付结果。 此过程提供团队可用于构建数据科学项目的建议生命周期。 生命周期概述了团队执行的主要阶段(通常以迭代方式进行):

  • 了解业务
  • 数据采集和理解
  • 建模
  • 部署
  • 客户验收

此处直观地展示了 TDSP 生命周期:

Diagram that shows the stages of the TDSP lifecycle.

目标

业务理解阶段的目标是:

  • 指定用作模型目标的关键变量。 并指定目标指标来确定项目是否成功。

  • 确定业务有权访问或需要获取的相关数据源。

如何完成任务

业务理解阶段有两个主要任务:

  • 定义目标:与客户和其他利益干系人协同合作,以了解和确定业务问题。 制定定义业务目标且能够通过数据科学技术得到解决的问题。

  • 标识数据源:查找相关数据,这些数据有助于解决定义项目目标的问题。

定义目标

  1. 此阶段的主要目标是确定分析需要预测的关键业务变量。 这些变量被称为模型目标,而与之关联的指标则用于确定项目是否成功。 例如,目标可以是销售预测,也可以是订单欺诈的概率。

  2. 若要定义项目目标,请提出和完善相关、特定和明确的尖锐问题。 数据科学是使用名称和数字来回答此类问题的过程。 数据科学或机器学习通常用于回答以下五类问题:

    • 多少? (回归)
    • 哪一类别? (分类)
    • 哪一组? (群集)
    • 这是否异常? (异常情况检测)
    • 应采用哪些选项? (建议)

    确定要提出上述哪些问题,以及如何回答才有助于实现业务目标。

  3. 若要定义项目团队,请指定角色及其成员的责任。 随着发现的信息不断增多,制定可以循环访问的高级里程碑计划。

  4. 你必须定义成功指标。 例如,你可能想要在三个月的项目结束时使客户流失预测准确度达到 x%。 有了这些数据,你就可以进行客户促销,以减少客户流失。 指标必须为 SMART

    • S - 明确 (Specific)
    • M - 可测量 (Measurable)
    • A - 可实现 (Achievable)
    • R - 相关 (Relevant)
    • T - 有时限 (Time-bound)

确定数据源

标识包含问题答案的已知示例的数据源。 查找以下数据:

  • 与问题相关的数据。 是否具有针对目标以及与该目标相关的功能的度量值?
  • 作为模型目标和感兴趣功能的准确度量值的数据。

例如,现有系统可能没有解决问题并实现项目目标所需的数据。 在这种情况下,你可能需要查找外部数据源或更新系统以收集新数据。

与 MLflow 集成

对于业务理解阶段,你的团队不使用 MLflow 工具,但它可以间接受益于 MLflow 的文档和试验跟踪功能。 这些功能可以提供见解和历史上下文,以帮助使项目与业务目标保持一致。

Artifacts

在此阶段,你的团队提供:

  • 章程文档。 章程文档是一个动态文档。 在发现新内容时,业务需求发生变化时,请更新整个项目中的文档。 关键是循环访问本文档。 在发现过程中添加更多详细信息。 告知客户和其他利益干系人更改及其原因。

  • 数据源。 可以使用 Azure 机器学习来处理数据源管理。 建议将此 Azure 服务用于活动项目,尤其是大型项目,因为它与 MLflow 集成。

  • 数据字典。 本文档提供客户端提供的数据的说明。 这些说明介绍了架构(数据类型、验证规则的相关信息(若有))和实体关系图(若有)。 团队应记录部分或全部此信息。

同行评审的文献

研究人员在经过同行评审的文献中发表了有关 TDSP 的研究。 引文提供了调查 TDSP 的其他应用程序或类似想法的机会,包括业务理解生命周期阶段。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

这些文章介绍了 TDSP 生命周期的其他阶段: