分享方式:


數據科學端對端案例:簡介和架構

這組教學課程示範 Fabric 數據科學體驗中的範例端對端案例。 您可以實作從數據擷取、清理和準備到定型機器學習模型和產生深入解析的每個步驟,然後使用Power BI等視覺效果工具來取用這些見解。

如果您不熟悉 Microsoft Fabric,請參閱 什麼是 Microsoft Fabric?

簡介

數據科學專案的生命週期通常包含下列步驟(通常是反覆的):

  • 商務了解
  • 數據採集
  • 數據探索、清理、準備和視覺效果
  • 模型定型和實驗追蹤
  • 模型評分和產生見解。

每個階段的目標和成功準則取決於共同作業、數據共享和檔。 Fabric 數據科學體驗包含多個原生建置的功能,可順暢地進行共同作業、數據擷取、共用和取用。

在這些教學課程中,您會扮演數據科學家的角色,該科學家已獲授與探索、清理及轉換包含銀行 10,000 名客戶流失狀態的數據集。 然後,您建置機器學習模型來預測哪些銀行客戶可能會離開。

您將瞭解如何執行下列活動:

  1. 使用適用於數據科學案例的網狀架構筆記本。
  2. 使用 Apache Spark 將數據內嵌至 Fabric Lakehouse。
  3. 從 Lakehouse 差異數據表載入現有的數據。
  4. 使用 Apache Spark 和 Python 工具清理和轉換數據。
  5. 建立實驗並執行來定型不同的機器學習模型。
  6. 使用 MLflow 和 Fabric UI 註冊和追蹤已定型的模型。
  7. 大規模執行評分,並將預測和推斷結果儲存至 Lakehouse。
  8. 使用 DirectLake 將 Power BI 中的預測可視化。

架構

在本教學課程系列中,我們會展示簡化的端對端數據科學案例,其中包含:

  1. 從外部數據源擷取數據。
  2. 探索和清除數據
  3. 定型和註冊機器學習模型
  4. 執行批次評分並儲存預測
  5. 在 Power BI 中將預測結果可視化。

Diagram of the Data science end-to-end scenario components.

數據科學案例的不同元件

數據源 - Fabric 可讓您輕鬆快速地連線到 Azure Data Services、其他雲端平臺和內部部署數據源,以從中內嵌數據。 使用網狀架構筆記本,您可以從內建 Lakehouse、數據倉儲、語意模型,以及各種 Apache Spark 和 Python 支援的自定義數據源內嵌數據。 本教學課程系列著重於從 Lakehouse 擷取和載入數據。

探索、清理和準備 - Fabric 上的數據科學體驗支援在 Spark 上使用內建體驗的數據清理、轉換、探索和特徵化,以及 Data Wrangler 和 SemPy Library 等以 Python 為基礎的工具。 本教學課程將使用 Python 連結庫 seaborn 和數據清理和使用 Apache Spark 來展示數據探索。

模型和實驗 - Fabric 可讓您使用內建實驗和模型專案來定型、評估和評分機器學習模型,並與 MLflow 緊密整合,以進行實驗追蹤和模型註冊/部署。 網狀架構也具有大規模模型預測的功能,以取得並分享商業見解。

儲存體 - Fabric 會在 Delta Lake標準化,這表示 Fabric 的所有引擎都可以與儲存在 Lakehouse 中的相同數據集互動。 此儲存層可讓您儲存支援以檔案為基礎的記憶體和表格式的結構化和非結構化數據。 儲存的數據集和檔案可透過筆記本和管線等所有 Fabric 體驗項目輕鬆存取。

公開分析和深入解析 - Power BI 可以使用來自 Lakehouse 的數據,這是領先業界的商業智慧工具,用於報告和視覺效果。 在 Lakehouse 中保存的數據也可以使用 Spark 或 Python 原生視覺效果連結庫,在筆記本中可視化,例如 matplotlibseabornplotly等等。 您也可以使用 SemPy 連結庫來可視化數據,該連結庫支援語意數據模型的內建豐富工作特定視覺效果、相依性及其違規,以及分類和回歸使用案例。

後續步驟