共用方式為


Lake 資料庫

Azure Synapse Analytics 中的 Lake 資料庫可讓客戶結合資料庫設計、所儲存資料的中繼資料資訊,以及描述應儲存資料的方式和位置的可能性。 Lake 資料庫可解決現今資料結構難以了解的資料湖挑戰。

Lake 資料庫概觀

資料庫設計工具

Synapse Studio中的新資料庫設計工具可讓您建立 Lake 資料庫的資料模型,並將其他資訊新增至其中。 每個實體和屬性可以經過描述,以提供有關模型的更多資訊,其中不僅包含實體,也包含關聯性。 尤其是無法建立模型關聯性,一直是在資料湖上互動的一項挑戰。 此挑戰現在會利用能夠實現可在資料庫中取得 (但無法在 Lake 上取得) 的功能的整合式設計工具解決。 此外,將描述和可能的示範值新增至模型的功能,可讓未來要與其互動的人員在需要時取得所需的資訊,以更能夠了解資料。

資料儲存體

Lake 資料庫會使用 Azure 儲存體帳戶上的資料湖來儲存資料庫的資料。 資料可以儲存為 Parquet、Delta 或 CSV 格式,而且可以使用不同的設定來最佳化儲存體。 每個 Lake 資料庫都會使用連結服務來定義根資料夾的位置。 針對每個實體,預設會在資料湖的此資料庫資料夾內建立個別的資料夾。 依預設,Lake 資料庫內的所有資料表都會使用相同格式,但如果需要,則可以針對每個實體變更資料的格式和位置。

注意

發佈 Lake 資料庫不會建立查詢 Spark 或 SQL 資料所需的任何基礎結構或結構描述。 發佈後,即可使用管線將資料載入您的 Lake 資料庫,並開始查詢它。

目前,Synapse Studio不支援 Lake 資料庫的差異格式支援。

儲存體與 Synapse 之間的 Lake 資料庫物件同步處理是單向的。 請務必使用 Synapse Studio 中的資料庫設計工具,執行湖資料庫物件的任何建立或架構修改。 如果您改為從 Spark 進行這類變更,或直接在儲存體中進行這類變更,您的 Lake 資料庫定義將會同步。如果發生這種情況,您可能會在資料庫設計工具中看到舊的 Lake 資料庫定義。 您必須在資料庫設計工具中複寫和發佈這類變更,才能讓 Lake 資料庫重新同步。

資料庫計算

Lake 資料庫會在 Synapse SQL 無伺服器 SQL 集區和 Apache Spark 中公開,讓使用者能夠將儲存體與計算分離。 與 Lake 資料庫相關聯的中繼資料不僅可讓不同計算引擎易於提供整合式體驗,還能夠使用資料湖上原本不支援的其他資訊 (例如,關聯性)。

後續步驟

使用下列連結,繼續探索資料庫設計工具的功能。