分享方式:


載入至 Delta Lake 數據表

Microsoft Fabric 中的 Lakehouse 提供一項功能,可有效率地將一般檔類型載入已準備好進行分析的優化 Delta 數據表。 [ 載入至資料表 ] 功能可讓使用者將單一檔案或檔案資料夾載入資料表。 這項功能可讓數據工程師快速使用滑鼠右鍵動作來啟用檔案和資料夾上的數據表載入,藉此提升數據工程師的生產力。 載入數據表也是 無程式代碼體驗,這會降低所有角色的專案列。

載入至數據表功能概觀

以下是我們在整合式載入資料表體驗中啟用的功能清單,可為使用者提供彈性,同時提高其生產力:

  • 支援的檔案類型: 此功能目前僅支援載入 PARQUET 或 CSV 檔案類型。 擴展名案例並不重要。

  • 單一檔案載入: 用戶可以在檔案的操作功能表動作中選取 [載入至差異數據表],以其中一種支援的格式載入他們所選擇的單一檔案。

  • 資料夾層級載入: 按兩下資料夾之後,您可以選取 [載入至差異資料表],一次載入資料夾及其子資料夾下的所有檔案。 此功能會自動周游所有檔案,並將其載入至 Delta 數據表。 請務必注意,只有相同類型的檔案可以同時載入數據表。

  • 載入新的和現有的數據表: 使用者可以選擇將其檔案和資料夾載入新資料表或他們所選擇的現有資料表。 如果他們決定選擇載入現有的數據表,他們可以在數據表中附加或覆寫其數據。

  • CSV 來源檔案選項: 對於 CSV 檔案,我們允許使用者指定其來源檔案是否包含想要作為數據行名稱的標頭。 使用者也可以指定其選擇的分隔符,以就地覆寫預設的逗號分隔符。

  • 載入為差異數據表: 一律使用已啟用 V 順序優化的 Delta Lake 資料表格式載入數據表。

    整體載入資料夾到數據表體驗的 Gif。

注意

目前,您無法透過 Lakehouse UI 指定資料表架構;您必須使用該用途的筆記本。

驗證指導方針和規則

下列標準適用於載入資料表體驗:

  • 數據表名稱只能包含英數位元和底線。 它也允許任何英文字母、大寫或小寫,以及底線 (_),長度上限為 256 個字元。 不允許破折號 (-) 或空格字元。

  • 沒有數據行標頭的文字檔會以標準 col# 表示法取代為數據表數據行名稱。

  • 數據行名稱允許任何英文字母、大寫或小寫、底線(_)以及UTF中中文等其他語言的字元,長度上限為 32個字元。 數據行名稱會在載入動作期間進行驗證。 [載入至差異] 演算法會將禁止的值取代為底線 (_)。 如果在驗證期間未達到適當的數據行名稱,載入動作就會失敗。

  • 針對 CSV 檔案,分隔符不能空白、不能超過 8 個字元,或使用下列任何字元()、、、[{]}單引號 ()、雙引號 ('"), 和空格符。