小組 資料科學 程式生命周期的數據擷取和了解階段

本文概述與 Team 資料科學 Process (TDSP) 的數據取得和了解階段相關聯的目標、工作和交付專案。 此程式提供建議的生命週期,讓小組可用來建構數據科學專案。 生命週期概述小組執行的主要階段,通常是反覆執行:

  • 商務理解
  • 數據擷取和瞭解
  • 建 模
  • [部署]
  • 客戶接受

以下是 TDSP 生命週期的視覺表示法:

Diagram that shows the stages of the TDSP lifecycle.

目標

數據擷取和了解階段的目標是:

  • 產生清楚與目標變數相關的全新高質量數據集。 在適當的分析環境中找出數據集,讓您的小組準備好進行模型化階段。

  • 開發數據管線的解決方案架構,以定期重新整理和評分數據。

如何完成工作

數據擷取和了解階段有三個主要工作:

  • 將數據內嵌 至目標分析環境。

  • 探索數據 以判斷數據是否可以回答問題。

  • 設定數據管線 來為新的或定期重新整理的數據評分。

內嵌資料

設定程式,將數據從來源位置移至執行分析作業的目標位置,例如定型和預測。

探索資料

在定型模型之前,您需要開發對數據的良好瞭解。 真實世界的數據集通常是嘈雜、遺漏值,或有許多其他差異。 您可以使用數據摘要和視覺效果來稽核數據的品質,並在數據準備好進行模型化之前收集處理數據的資訊。 此程式通常是反覆的。 如需清除數據的指引,請參閱 準備數據以增強機器學習的工作。

滿意已清理數據的質量之後,下一個步驟是進一步了解數據中的模式。 此數據分析可協助您為目標選擇及開發適當的預測模型。 判斷數據對應到目標多少。 然後決定您的小組是否有足夠的數據可繼續進行下一個模型化步驟。 同樣地,此程式通常是反覆的。 您可能需要尋找具有更精確或更相關數據的新數據源,以調整先前階段中所識別的數據集。

設定數據管線

除了擷取和清除數據之外,您通常需要設定程式來為新數據評分,或定期重新整理數據,作為進行中學習程式的一部分。 您可以使用資料管線或工作流程來評分數據。 我們建議使用 Azure Data Factory 的管線。

在這個階段中,您會開發資料管線的解決方案架構。 您可以與資料科學專案的下一個階段平行建立管線。 視您的商務需求和整合此解決方案的現有系統條件約束而定,管線可以是:

  • 以批次為基礎的
  • 串流或即時
  • 混合式

與 MLflow 整合

在數據了解階段,您可以使用 MLflow 的實驗追蹤 來追蹤和記錄各種數據前置處理策略和探勘數據分析。

Artifacts

在此階段中,您的小組會提供:

  • 數據質量報告 ,其中包含數據摘要、每個屬性與目標之間的關聯性、變數排名等等。

  • 解決方案架構,例如您的小組用來對新數據執行預測的數據管線圖表或描述。 此圖表也包含管線,以根據新數據重新定型您的模型。 當您使用 TDSP 目錄結構範本時,請將檔案儲存在 項目目錄中

  • 檢查點決策。 開始進行功能完整的工程和模型建置之前,您可以重新評估專案,以判斷預期的值是否足以繼續執行。 例如,您可能準備好繼續進行、需要收集更多數據,或如果您找不到可回答問題的數據,則放棄專案。

同行審查的文學

研究人員在同行審查的文獻中發表了有關 TDSP 的研究。 引文 提供機會來調查 TDSP 的其他應用程式或類似想法,包括數據擷取和瞭解生命周期階段。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

這些文章說明 TDSP 生命週期的其他階段: