Team 資料科學 Process 生命週期的模型化階段

本文概述與 Team 資料科學 Process (TDSP) 模型化階段相關聯的目標、工作和交付專案。 此程式提供建議的生命週期,讓小組可用來建構數據科學專案。 生命週期概述小組執行的主要階段,通常是反覆執行:

  • 商務理解
  • 數據擷取和瞭解
  • 建 模
  • [部署]
  • 客戶接受

以下是 TDSP 生命週期的視覺表示法:

Diagram that shows the stages of the TDSP lifecycle.

目標

模型化階段的目標是:

  • 判斷機器學習模型的最佳數據功能。

  • 建立資訊豐富的機器學習模型,以最準確地預測目標。

  • 建立適合生產環境的機器學習模型。

如何完成工作

模型階段有三個主要工作:

  • 特徵工程:從原始數據建立數據特徵,以利模型定型。

  • 模型定型:藉由比較模型的成功計量,找出最準確地回答問題的模型。

  • 模型評估:判斷您的模型是否適合生產環境。

功能工程

特徵工程涉及原始變數的包含、匯總和轉換,以建立分析中使用的特徵。 如果您想要深入瞭解如何建置模型,則需要研究模型的基礎特徵。

此步驟需要領域專業知識的創造性組合,以及從數據探索步驟取得的深入解析。 特徵工程是尋找和包含資訊變數的平衡動作,但同時嘗試避免太多不相關的變數。 資訊變數可改善您的結果。 不相關的變數會將不必要的雜訊引入模型中。 您也需要為評分期間取得的任何新數據產生這些功能。 因此,這些功能的產生只能取決於評分時可用的數據。

模型訓練

您可以使用許多模型化演算法,視您嘗試回答的問題類型而定。 如需選擇預先建置演算法的指引,請參閱 Azure 機器學習 設計工具的 機器學習 演演算法速查表。 其他演算法可透過 R 或 Python 中的開放原始碼套件取得。 雖然本文著重於 Azure 機器學習,但它提供的指引對許多機器學習專案很有用。

模型定型的程式包括下列步驟:

  • 隨機將輸入數據 分割成定型數據集和測試數據集。

  • 使用定型數據集建置模型

  • 評估 定型和測試數據集。 使用一系列的競爭機器學習演算法。 使用各種相關的微調參數(稱為 參數掃掠),這些參數旨在回答與目前數據相關的問題。

  • 藉由比較替代方法之間的成功計量,判斷要回答問題的最佳解決方案

如需詳細資訊,請參閱使用 機器學習 定型模型。

注意

避免外洩:如果您包含來自定型數據集外部的數據,讓模型或機器學習演算法做出不切實際的良好預測,您可能會造成數據外洩。 洩漏是數據科學家在取得預測結果看起來太好而無法正確時變得緊張的常見原因。 這些相依性可能很難偵測。 避免外洩通常需要在建置分析數據集、建立模型及評估結果的正確性之間進行反覆運算。

模型評估

在定型模型之後,小組上的數據科學家著重於模型評估。

  • 做出判斷:評估模型是否足以用於生產環境。 要問的一些關鍵問題包括:

    • 如果測試數據有足夠的信心,模型會回答問題嗎?

    • 您應該嘗試任何替代方法嗎?

    • 您應該收集更多數據、進行更多特徵工程或實驗其他演算法嗎?

  • 解譯模型:使用 機器學習 Python SDK 來執行下列工作:

    • 說明本機個人電腦上的整個模型行為或個別預測。

    • 啟用工程功能的可解釋性技術。

    • 說明 Azure 中整個模型和個別預測的行為。

    • 將說明上傳至 機器學習 執行歷程記錄。

    • 在 Jupyter Notebook 和 機器學習 工作區中,使用視覺效果儀錶板與您的模型說明互動。

    • 在推斷期間,將評分解釋器與模型一起部署,以觀察說明。

  • 評估公平性:使用 fairlearn 開放原始碼 Python 套件搭配 機器學習 來執行下列工作:

    • 評估模型預測的公平性。 此程式可協助小組深入瞭解機器學習中的公平性。

    • 從 機器學習 Studio 上傳、列出及下載公平評定深入解析。

    • 請參閱 機器學習 Studio 中的公平性評定儀錶板,以與您的模型公平性深入解析互動。

與 MLflow 整合

機器學習 與 MLflow 整合以支援模型生命週期。 它會針對實驗、專案部署、模型管理和模型登錄使用 MLflow 的追蹤。 此整合可確保順暢且有效率的機器學習工作流程。 機器學習中的下列功能可協助支援此模型生命週期元素:

  • 追蹤實驗:MLflow 的核心功能在模型化階段廣泛使用,以追蹤各種實驗、參數、計量和成品。

  • 部署專案:使用 MLflow 專案封裝程式代碼可確保在小組成員之間執行一致且易於共用,這在反覆模型開發期間至關重要。

  • 管理模型:管理與版本控制模型在這個階段非常重要,因為建置、評估及精簡了不同的模型。

  • 註冊模型:模型登錄會用於整個生命週期的版本設定和管理模型。

同行審查的文學

研究人員在同行審查的文獻中發表了有關 TDSP 的研究。 引文 提供一個機會來調查 TDSP 的其他應用程式或類似的想法,包括模型生命周期階段。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

這些文章說明 TDSP 生命週期的其他階段: