什麼是 Team Data Science Process?

Azure Machine Learning

Team 資料科學 Process (TDSP) 是一種敏捷、反覆的數據科學方法,可用來有效率地提供預測性分析解決方案和 AI 應用程式。 TDSP 藉由建議小組角色如何搭配運作,協助改善小組共同作業和學習。 TDSP 包含 Microsoft 和其他業界領導者的最佳做法和結構,可協助小組成功實作數據科學計劃,並充分實現分析計劃的優點。

本文提供 TDSP 及其主要元件的概觀。 它提供如何使用 Microsoft 工具和基礎結構實作 TDSP 的指引。 您可以在整個文章中找到更詳細的資源。

TDSP 的主要元件

TDSP 具有下列重要元件:

  • 數據科學生命周期定義
  • 標準化項目結構
  • 數據科學專案建議的基礎結構和資源
  • 建議用於專案執行的工具和公用程式

資料科學生命週期

TDSP 提供一個生命週期,可讓您用來建構數據科學項目的開發。 生命週期概述成功專案遵循的完整步驟。

您可以將以工作為基礎的 TDSP 與其他數據科學生命周期結合,例如數據採礦的跨產業標準程式(CRISP-DM)、資料庫 (KDD) 程式中的知識探索,或其他自定義程式。 概括而言,這些不同的方法有很多共同點。

如果您有屬於智慧型手機應用程式一部分的數據科學專案,您應該使用此生命週期。 智慧型手機應用程式會部署機器學習或 AI 模型以進行預測性分析。 您也可以使用此程式來探索資料科學專案和即興分析專案。

TDSP 生命週期是由小組反覆執行的五個主要階段所組成。 這些階段包括:

以下是 TDSP 生命週期的視覺表示法:

Diagram that shows the stages of the TDSP lifecycle.

如需每個階段的目標、工作和檔成品的相關信息,請參閱Team資料科學 Process生命週期

這些工作和成品與專案角色相關聯,例如:

  • 解決方案架構師。
  • 專案經理。
  • 數據工程師。
  • 資料科學家。
  • 應用程式開發人員。
  • 項目負責人。

下圖顯示這些角色(在垂直軸上)與生命週期每個階段相關聯的工作(藍色)和成品(以綠色表示)。

Diagram that shows the tasks and artifacts for each stage.

標準化項目結構

您的小組可以使用 Azure 基礎結構來組織數據科學資產。

Azure 機器學習 支持開放原始碼 MLflow。 我們建議使用 MLflow 進行數據科學和 AI 專案管理。 MLflow 的設計目的是要管理完整的機器學習生命週期。 它會在不同的平臺上定型並提供模型,因此無論您的實驗執行位置為何,您都可以使用一組一致的工具。 您可以在本機電腦上、遠端計算目標、虛擬機或 機器學習 計算實例上使用 MLflow。

MLflow 是由數個主要功能所組成:

  • 追蹤實驗:使用 MLflow,您可以追蹤實驗,包括參數、程式代碼版本、計量和輸出檔案。 這項功能可協助您比較不同的執行,並有效率地管理實驗程式。

  • 套件程式代碼:它提供標準化格式來封裝機器學習程序代碼,其中包含相依性和組態。 此封裝可讓您更輕鬆地重現執行,並與其他人共享程序代碼。

  • 管理模型:MLflow 提供管理和版本控制模型的功能。 它支援各種機器學習架構,因此您可以儲存、版本及服務模型。

  • 提供和部署模型:MLflow 整合模型服務與部署功能,讓您可以輕鬆地在各種環境中部署模型。

  • 註冊模型:您可以管理模型的生命週期,包括版本控制、階段轉換和批注。 MLflow 適用於在共同作業環境中維護集中式模型存放區。

  • 使用 API 和 UI:在 Azure 內,MLflow 會組合在 機器學習 API 第 2 版內,讓您可以以程序設計方式與系統互動。 您可以使用 Azure 入口網站 與 UI 互動。

MLflow 旨在簡化和標準化機器學習開發程式,從實驗到部署。

機器學習 與 Git 存放庫整合,因此您可以使用 GitHub、GitLab、Bitbucket、Azure DevOps 或其他與 Git 相容的服務。 除了 機器學習 中已追蹤的資產之外,您的小組還可以在其 Git 相容服務內開發自己的分類法,以儲存其他項目資訊,例如:

  • 文件
    • Project,例如最終項目報表
    • 數據報表,例如數據字典或數據品質報表
    • 模型,例如模型報表
  • 代碼
    • 資料準備
    • 模型開發
    • 作業化,包括安全性和合規性

基礎結構和資源

TDSP 提供管理共用分析和記憶體基礎結構的建議,例如:

  • 用於儲存數據集的雲端檔案系統
  • 資料庫
  • 巨量數據叢集,例如 SQL 或 Spark
  • 機器學習服務

您可以將分析和記憶體基礎結構放在雲端或內部部署中,其中儲存原始和已處理的數據集。 此基礎結構可讓您重現分析。 它也會防止重複,這可能會導致不一致和不必要的基礎結構成本。 基礎結構有工具可布建共用資源、追蹤資源,並允許每個小組成員安全地連線到這些資源。 讓項目成員建立一致的計算環境也是很好的作法。 然後,各種小組成員可以復寫和驗證實驗。

以下是小組處理多個專案並共用各種雲端分析基礎結構元件的範例:

Diagram that shows the infrastructure of a team.

工具和公用程式

在大部分組織中,引進程式是一項挑戰。 基礎結構提供實作 TDSP 和生命週期的工具,有助於降低其採用的障礙,並增加其採用的一致性。

透過 機器學習,數據科學家可以在數據科學管線或工作流程中套用開放原始碼工具。 在 機器學習 內,Microsoft 會推廣負責任的 AI 工具,以協助達成 Microsoft 的負責任 AI 標準

同行檢閱的引文

TDSP 是 Microsoft 參與中採用的既定方法,因此已在同行審查的文獻中記錄和研究。 這些引文提供調查 TDSP 功能和應用程式的機會。 如需引文清單,請參閱生命週期概觀頁面

Team 資料科學 Process 中的角色和工作