分享方式:


Lakehouse 和 Delta Lake 數據表

Microsoft Fabric Lakehouse 是一個數據架構平臺,可用來在單一位置儲存、管理和分析結構化和非結構化數據。 為了在 Microsoft Fabric 中的所有計算引擎之間實現順暢的數據存取, Delta Lake 會選擇為統一的數據表格式。

使用載入至數據表之類的功能,在 Lakehouse 中儲存數據,或選項中所述的方法將資料儲存到 Fabric Lakehouse 中,所有數據都會以 Delta 格式儲存。

如需 Delta Lake 數據表格式的更全面簡介,請遵循後續步驟一節中的連結。

巨量數據、Apache Spark 和舊版數據表格式

適用於 Apache Spark 的 Microsoft Fabric Runtime 會使用與適用於 Apache Spark 的 Azure Synapse Analytics Runtime 相同的基礎,但包含可在 Microsoft Fabric 服務中的所有引擎上提供更精簡的行為的主要差異。 在 Microsoft Fabric 中,預設會開啟主要效能功能。 進階 Apache Spark 使用者可以將設定還原為先前的值,以更符合特定案例。

Microsoft Fabric Lakehouse 和 Apache Spark 引擎支援所有數據表類型,包括 Managed 和 Unmanaged;這包括檢視和一般非 Delta Hive 數據表格式。 使用 PARQUET、CSV、AVRO、JSON 和任何 Apache Hive 相容檔格式定義的數據表會如預期般運作。

Lakehouse 總管使用者介面體驗會根據數據表類型而有所不同。 目前,Lakehouse 總管只會轉譯數據表物件。

Azure Synapse Analytics 的設定差異

下表包含 Azure Synapse Analytics 與適用於 Apache Spark 的 Microsoft Fabric 運行時間之間的設定差異。

Apache Spark 組態 Microsoft Fabric 值 Azure Synapse Analytics 值 備註
spark.sql.sources.default delta parquet 預設數據表格式
spark.sql.parquet.vorder.enabled true N/A V 順序寫入器
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/A V 順序的字典頁面大小限制
spark.microsoft.delta.optimizeWrite.enabled true unset (false) 優化寫入

自動探索數據表

Lakehouse 總管提供 Microsoft Fabric Lakehouse 專案中物件的樹狀檢視。 其具有探索及顯示元數據存放庫和 OneLake 記憶體中所述之數據表的重要功能。 數據表參考會顯示在 Lakehouse 總管使用者介面的 區段底下 Tables 。 自動探索也適用於透過 OneLake 快捷方式定義的數據表。

快捷方式的數據表

Microsoft Fabric Lakehouse 支援透過 OneLake 快捷方式定義的數據表,以提供最大的相容性和沒有數據移動。 下表包含每個項目類型在快捷方式上使用時的最佳作法。

快捷方式目的地 建立快捷方式的位置 最佳做法
Delta Lake 數據表 Tables 區段 如果目的地中有多個數據表,請為每個數據表建立一個快捷方式。
具有檔案的資料夾 Files 區段 使用 Apache Spark 直接使用相對路徑來使用目的地。 將數據載入 Lakehouse 原生 Delta 數據表,以達到最大效能。
舊版 Apache Hive 數據表 Files 區段 使用 Apache Spark 直接使用相對路徑來使用目的地,或使用語法建立中繼資料目錄參考 CREATE EXTERNAL TABLE 。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。

載入至資料表

Microsoft Fabric Lakehouse 提供方便且具生產力的使用者介面,以簡化將資料載入 Delta 資料表。 [載入資料表] 功能可讓視覺效果體驗將一般檔案格式載入至 Delta,以提升所有角色的分析生產力。 若要深入瞭解詳細資料中的載入資料表功能,請參閱 Lakehouse Load to Tables 參考檔。

Delta Lake 資料表優化

將資料表維持在圖形中,以取得廣泛的分析案例範圍,並非次要的壯舉。 Microsoft Fabric Lakehouse 支援主動啟用重要參數,以將與巨量資料表相關聯的常見問題降到最低,例如壓縮和小型檔案大小,以及將查詢效能最大化。 不過,有許多情況下,這些參數需要變更。 Delta Lake 資料表優化和 V 順序 一文涵蓋一些重要案例,並提供有關如何有效率地維護 Delta 資料表以獲得最大效能的深入指南。