小組 資料科學 程式生命週期的商務了解階段

本文概述與 Team 資料科學 Process (TDSP) 商務理解階段相關聯的目標、工作和交付專案。 此程式提供建議的生命週期,讓小組可用來建構數據科學專案。 生命週期概述小組執行的主要階段,通常是反覆執行:

  • 商務理解
  • 數據擷取和瞭解
  • 建 模
  • [部署]
  • 客戶接受

以下是 TDSP 生命週期的視覺表示法:

Diagram that shows the stages of the TDSP lifecycle.

目標

商務理解階段的目標是:

  • 指定做為模型目標的索引鍵變數。 並指定目標的計量,以決定專案的成功。

  • 識別企業有權存取或需要取得的相關數據源。

如何完成工作

商務理解階段有兩個主要工作:

  • 定義目標:與客戶和其他項目關係人合作,瞭解和識別商務問題。 制定問題,以定義數據科學技術可設定目標的商務目標。

  • 識別數據源:尋找可協助您回答定義專案目標的問題的相關數據。

定義目標

  1. 此階段的核心目標是識別分析需要預測的主要商務變數。 這些變數稱為 模型目標,而與其相關聯的計量可用來判斷專案的成功。 例如,目標可以是銷售預測或訂單詐騙的機率。

  2. 若要定義項目目標,請詢問並精簡 相關、特定且明確的尖銳 問題。 數據科學是一個程式,使用名稱和數位來回答這類問題。 您通常會使用資料科學或機器學習來回答五種類型的問題:

    • 多少? (回歸)
    • 哪一個類別? (分類)
    • 哪一個群組? (叢集)
    • 這是不尋常的嗎? (異常偵測)
    • 應該採用哪一個選項? (建議)

    判斷要詢問的這些問題,以及如何回答,以協助達成您的業務目標。

  3. 若要定義專案小組,請指定其成員的角色和責任。 在您探索詳細資訊時,開發您反覆運算的高階里程碑計劃。

  4. 您必須定義成功計量。 例如,您可能想要在三個月項目結束時,以 x% 的精確度預測來符合客戶流失預測。 透過這項數據,您可以提供客戶促銷來減少流失。 計量必須是 SMART

    • Specific
    • Measurable
    • 可辨別的
    • Relevant
    • T輸入系結

識別資料來源

識別包含您問題的已知解答範例的數據源。 尋找下列資料:

  • 與問題相關的數據。 您是否有與目標相關的目標和功能量值?
  • 這是模型目標和感興趣的功能精確量值的數據。

例如,現有的系統可能沒有解決問題並達成專案目標所需的數據。 在此情況下,您可能需要尋找外部數據源或更新系統以收集新數據。

與 MLflow 整合

對於商務了解階段,您的小組不會使用 MLflow 工具,但可以間接受益於 MLflow 的文件和實驗追蹤功能。 這些功能可以提供深入解析和歷程記錄內容,以協助專案與商務目標保持一致。

Artifacts

在此階段中,您的小組會提供:

  • 包機檔。 包機檔是一份活生生的檔。 當您進行新的探索和商務需求變更時,您會在整個專案中更新檔。 索引鍵是在此文件上進行反覆運算。 當您進行探索程式時,請新增更多詳細數據。 通知客戶和其他項目關係人變更及其原因。

  • 數據源。 您可以使用 Azure 機器學習 來處理數據源管理。 我們建議此 Azure 服務用於作用中專案,特別是大型項目,因為它會與 MLflow 整合。

  • 數據字典。 本檔提供用戶端提供之數據的描述。 這些描述包括架構的相關信息(如果有的話,驗證規則的數據類型和資訊),以及如果有的話,以及實體關聯圖表。 您的小組應該記錄部分或全部的資訊。

同行審查的文學

研究人員在同行審查的文獻中發表了有關 TDSP 的研究。 引文 提供機會來調查 TDSP 的其他應用程式或類似想法,包括商務瞭解生命周期階段。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

這些文章說明 TDSP 生命週期的其他階段: