分享方式:


Lakehouse 端對端案例:概觀和架構

Microsoft Fabric 是一個適用於企業的多功能分析解決方案,涵蓋包括資料移動到資料科學、即時分析及商業智慧等所有內容。 它提供一套完整的服務,包括 Data Lake、數據工程和數據整合,全都放在一個地方。 如需詳細資訊,請參閱 什麼是 Microsoft Fabric?

本教學課程會逐步引導您完成從數據擷取到數據耗用量的端對端案例。 其可協助您建置對 Fabric 的基本瞭解,包括不同的體驗及其整合方式,以及在此平臺上運作的專業和公民開發人員體驗。 本教學課程的目的不是參考架構、完整的特性和功能清單,或特定最佳做法的建議。

Lakehouse 端對端案例

傳統上,組織已為其交易式和結構化數據分析需求建置現代化數據倉儲。 適用於巨量數據(半/非結構化)數據分析需求的 Data Lakehouse。 這兩個系統會平行執行、建立尋址接收器、數據重複,以及增加總擁有成本。

在 Delta Lake 格式上統一數據存放區和標準化的網狀架構可讓您消除尋址接收器、移除資料重複,並大幅降低總擁有成本。

透過 Fabric 所提供的彈性,您可以實作 Lakehouse 或數據倉儲架構,或將它們結合在一起,以充分利用這兩者與簡單的實作。 在本教學課程中,您將以零售組織為例,並從頭到尾建置其 Lakehouse。 它會使用 銅層具有原始數據的獎章架構 、銀層具有已驗證和重複數據刪除的數據,而金層具有高度精簡的數據。 您可以採取相同的方法,為任何產業的任何組織實作 Lakehouse。

本教學課程說明虛構 Wide World Importers 公司的開發人員如何完成下列步驟:

  1. 登入您的Power BI帳戶並註冊免費的 Microsoft Fabric 試用版。 如果您沒有 Power BI 授權, 請註冊 Power BI 免費授權 ,然後啟動 Fabric 試用版。

  2. 為您的組織建置並實作端對端 Lakehouse:

  3. 藉由刪除工作區和其他專案來清除資源

架構

下圖顯示 Lakehouse 端對端架構。 下列清單中會說明所涉及的元件。

Microsoft Fabric 中 Lakehouse 端對端架構的圖表。

  • 數據源:Fabric 可讓您快速輕鬆地連線到 Azure Data Services,以及其他雲端式平臺和內部部署數據源,以簡化數據擷取。

  • 擷取:您可以使用超過 200 個原生連接器,為您的組織快速建置見解。 這些連接器會整合到 Fabric 管線中,並使用使用者易記的拖放數據轉換與數據流。 此外,使用 Fabric 中的快捷方式功能,您可以連線到現有的數據,而不需要複製或移動它。

  • 轉換和儲存:網狀架構會標準化 Delta Lake 格式。 這表示所有網狀架構引擎都可以存取及操作儲存在 OneLake 中的相同數據集,而不需要複製數據。 此記憶體系統提供彈性,根據組織需求,使用獎牌架構或數據網格來建置 Lakehouse。 您可以針對數據轉換選擇低程式碼或無程式代碼體驗,並針對程式代碼優先體驗使用管線/數據流或筆記本/Spark。

  • 用:Power BI 可以從 Lakehouse 取用數據以進行報告和視覺效果。 每個 Lakehouse 都有一個名為 SQL 分析端點的內建 TDS 端點,以便從其他報告工具輕鬆連線和查詢 Lakehouse 數據表中的數據。 SQL 分析端點為使用者提供 SQL 連線功能。

範例數據集

本教學課程使用 Wide World Importers (WWI) 範例資料庫。 針對 Lakehouse 端對端案例,我們已產生足夠的數據來探索 Fabric 平臺的規模和效能功能。

Wide World Importers (WWI) 是一家從三藩市灣地區經營的批發新奇商品進口商和轉銷商。 作為批發商,WWI的客戶大多包括向個人轉售的公司。 WWI 會銷售給美國各地的零售客戶,包括專賣店、超市、電腦商店、旅遊景點商店,以及一些個人。 WWI 也會透過代表 WWI 促銷產品的代理商網路銷售給其他批發商。 若要深入瞭解其公司配置檔和作業,請參閱 適用於 Microsoft SQL 的 Wide World Importers 範例資料庫。

一般而言,數據會從交易系統或企業營運應用程式帶入 Lakehouse。 不過,為了簡化本教學課程,我們會使用WWI所提供的維度模型作為初始數據源。 我們使用它作為將數據內嵌到湖屋的來源,並透過獎章架構的不同階段(青銅、銀級和金牌)進行轉換。

資料模型

雖然 WWI 維度模型包含許多事實數據表,但在本教學課程中,我們會使用 Sale 事實數據表及其相互關聯的維度。 下列範例說明 WWI 數據模型:

本教學課程數據模型的銷售事實數據表和相關維度圖表。

數據和轉換流程

如先前所述,我們使用Wide World Importers (WWI) 範例數據的範例數據來建置此端對端 Lakehouse。 在此實作中,範例數據會以 Parquet 檔案格式儲存在所有數據表的 Azure 資料記憶體帳戶中。 不過,在真實世界的案例中,數據通常源自各種來源和各種格式。

下圖顯示來源、目的地和資料轉換:

Microsoft Fabric 中數據流和轉換方式的圖表。

  • 數據源:源數據的格式為 Parquet 檔案格式和未分割的結構。 它儲存在每個數據表的資料夾中。 在本教學課程中,我們會設定管線,將完整的歷程記錄或一次性數據內嵌至 Lakehouse。

    在本教學課程中,我們會使用 Sales 事實數據表,該數據表具有一個父資料夾,具有 11 個月的歷程記錄資料(每個月有一個子資料夾),另一個資料夾包含三個月的累加數據(每個月一個子資料夾)。 在初始數據擷取期間,11 個月的數據會擷取到 Lakehouse 數據表中。 不過,當累加數據到達時,它會包含 10 月和 11 月的更新數據,以及 12 月和 11 月數據與現有數據合併,而新的 Dec 數據會寫入 Lakehouse 數據表,如下圖所示:

    此圖顯示如何以累加方式合併變更的數據,以累加方式合併到 Lakehouse 中最初內嵌的數據。

  • Lakehouse:在本教學課程中,您會建立 Lakehouse,將數據內嵌至 Lakehouse 的檔案區段,然後在 Lakehouse 的 [數據表] 區段中建立差異湖數據表。

  • 轉換:如需數據準備和轉換,您會看到兩種不同的方法。 我們示範針對偏好程式代碼優先體驗的使用者使用 Notebooks/Spark,並針對偏好低程式代碼或無程式碼體驗的使用者使用管線/數據流。

  • 用:若要示範數據耗用量,您會看到如何使用Power BI的 DirectLake 功能來建立報表、儀錶板,以及直接從 Lakehouse 查詢數據。 此外,我們示範如何使用 TDS/SQL 分析端點,讓您的數據可供第三方報告工具使用。 此端點可讓您連線到倉儲,並執行 SQL 查詢以進行分析。

後續步驟