將數據內嵌至 Databricks Lakehouse

發行項
03/01/2024

Azure Databricks 提供各種方式，可協助您將數據內嵌到 Delta Lake 支援的 Lakehouse。 Databricks 建議使用自動載入器從雲端物件記憶體進行累加式數據擷取。新增數據 UI 提供數個選項，可快速上傳本機檔案或連線到外部數據源。

執行您的第一個 ETL 工作負載

如果您尚未在 Azure Databricks 上使用自動載入器，請從教學課程開始。請參閱在 Azure Databricks 上執行您的第一個 ETL 工作負載。

自動載入器

自動載入器會在抵達雲端記憶體時，以累加且有效率的方式處理新的數據檔，而不需要額外的設定。自動載入器提供稱為 cloudFiles的結構化串流來源。在雲端檔案記憶體上指定輸入目錄路徑， cloudFiles 來源會在新檔案送達時自動處理新檔案，並可選擇同時處理該目錄中的現有檔案。

使用 Delta 即時數據表和自動載入器將 ETL 自動化

您可以使用自動載入器和 Delta 即時資料表來簡化可調整、累加式擷取基礎結構的部署。請注意，Delta Live Tables 不會使用筆記本中找到的標準互動式執行，而是強調已準備好生產環境的基礎結構部署。

上傳本機數據檔或連接外部數據源

您可以安全地上傳本機數據檔，或從外部來源內嵌數據以建立數據表。請參閱使用新增數據 UI 載入資料。

使用第三方工具將數據內嵌至 Azure Databricks

Azure Databricks 會驗證技術合作夥伴整合，讓您能夠將數據內嵌至 Azure Databricks。這些整合可讓您從各種來源擷取低程序代碼、可調整的數據擷取到 Azure Databricks。請參閱技術合作夥伴。 Databricks 合作夥伴連線提供一些技術合作夥伴，其提供UI，可簡化將第三方工具連線到您的Lakehouse數據。

COPY INTO

COPY INTO 可讓 SQL 使用者以等冪和累加方式將數據從雲端物件記憶體內嵌到 Delta 資料表。它可用於 Databricks SQL、筆記本和 Databricks 作業。

何時使用 COPY INTO，以及何時使用自動載入器

在 [自動載入器] 和 COPY INTO之間選擇時，以下是需要考慮的一些事項：

如果您要依數千個順序內嵌檔案，您可以使用 COPY INTO。如果您預期檔案依一段時間的數百萬或更多，請使用自動載入器。相較於，自動載入器需要較少的總作業來探索檔案 COPY INTO ，而且可以將處理分割成多個批次，這表示自動載入器在大規模上成本較低且更有效率。
如果您的數據架構會經常發展，自動載入器會針對架構推斷和演進提供更佳的基本類型。如需詳細資訊，請參閱在自動載入器中設定架構推斷和演進。
載入重新上傳的檔案子集可能會更容易使用 COPY INTO管理。使用自動載入器，更難重新處理選取的檔案子集。不過，當自動載入器數據流同時執行時，您可以使用 COPY INTO 來重載檔案的子集。
針對更可調整且健全的檔案擷取體驗，自動載入器可讓 SQL 使用者運用串流數據表。請參閱使用 Databricks SQL 中的串流數據表載入數據。

如需自動載入器以及的簡短概觀和示範，請 COPY INTO觀看下列 YouTube 影片（2 分鐘）。

檢閱在數據擷取期間擷取的檔案元數據

Apache Spark 會在數據載入期間自動擷取來源檔案的相關數據。 Azure Databricks 可讓您使用 [檔案元數據] 資料行來存取此數據。

將電子表格導出上傳至 Azure Databricks

使用 [ 從檔案上傳] 頁面建立或修改數據表來上傳 CSV、TSV 或 JSON 檔案。請參閱使用檔案上傳建立或修改數據表。

將數據應用程式遷移至 Azure Databricks

將現有的數據應用程式遷移至 Azure Databricks，讓您可以在單一平臺上使用來自許多來源系統的數據。請參閱將數據應用程式遷移至 Azure Databricks。

Share via