共用方式為


什麼是 Microsoft Fabric 中的 Spark 計算?

適用於:Microsoft Fabric 中的 資料工程師 和 資料科學

Microsoft Fabric 資料工程師 和 資料科學 體驗可在完全受控的 Spark 計算平台上運作。 此平台的設計目的是提供無與倫比的速度和效率。 使用入門集區時,您可以預期快速進行Spark會話初始化,通常是在5到10秒內,而不需要手動設定。 您也可以根據特定的數據工程和數據科學需求,彈性地自定義 Spark 集區。 此平臺可啟用優化且量身打造的分析體驗。

Spark 計算平臺的影像,其中包含入門集區和自定義 Spark 集區。

入門集區

入門集區是一種快速且簡單的方法,可在數秒內在 Microsoft Fabric 平臺上使用 Spark。 您可以立即使用 Spark 工作階段,而不是等待 Spark 為您設定節點,這可協助您使用資料進行更多作業,並更快速地取得深入解析。

顯示入門集區組態之數據表的影像。

入門集區具有一律開啟且可供您要求使用的Spark叢集。 他們會使用根據 Spark 作業需求動態相應增加的中型節點。

此圖顯示入門集區的高階設計。

入門集區也有預設設定,可讓您快速安裝連結庫,而不會讓會話開始時間變慢。 不過,如果您想要從工作區或容量設定使用額外的自定義 Spark 屬性或連結庫,Spark 需要較長的時間才能為您取得節點。 在計費和容量耗用量方面,當您開始執行筆記本或Spark作業定義時,系統會向您收取容量耗用量的費用。 在集區中閑置叢集的時間,您不需支付費用。

此圖顯示入門集區計費的高階階段。

例如,如果您將筆記本作業提交至入門集區,則只會針對使用中筆記本會話的時間週期計費。 計費時間不包含閑置時間或使用Spark內容個人化會話所花費的時間。

Spark 集區

Spark 集區是一種告訴 Spark 您需要何種資源來進行數據分析工作的方式。 您可以為您的 Spark 集區指定名稱,並選擇節點數目和大小(執行工作的機器) 數目。 您也可以告知 Spark 如何根據您擁有多少工作來調整節點數目。 建立 Spark 集區是免費的;只有在您在集區上執行 Spark 作業時,才會支付費用,然後 Spark 會為您設定節點。

如果您的會話到期后 2 分鐘未使用 Spark 集區,您的 Spark 集區將會解除分配。 此預設會話到期時間週期設定為20分鐘,而且您可以視需要加以變更。 如果您是工作區管理員,您也可以為工作區建立自定義 Spark 集區,並將它們設為其他使用者的預設選項。 如此一來,您就可以節省時間,並避免每次執行筆記本或Spark作業時設定新的Spark集區。 自定義Spark集區需要大約三分鐘的時間才能啟動,因為Spark必須從 Azure 取得節點。

您甚至可以建立單一節點 Spark 集區,方法是將節點數目下限設定為一個,因此驅動程式和執行程式會在可還原 HA 隨附的單一節點中執行,而且適合小型工作負載。

您可以在自訂 Spark 集區中擁有的節點大小和數目取決於您的 Microsoft Fabric 容量。 容量是一項量值,可測量您可以在 Azure 中使用的運算能力。 其中一種方法是,兩個Spark虛擬核心(Spark的運算能力單位)等於一個容量單位。 例如,網狀架構容量 SKU F64 具有 64 個容量單位,相當於 128 個 Spark VCore。 您可以使用這些 Spark 虛擬核心來為自訂 Spark 集區建立不同大小的節點,只要 Spark 虛擬核心總數不超過 128 個。

Spark 集區會像入門集區一樣計費;除非您已建立用於執行筆記本或 Spark 作業定義的使用中 Spark 工作階段,否則您不需支付您所建立的自定義 Spark 集區。 您只需支付作業執行期間的費用。 作業完成之後,您不會支付叢集建立和解除分配等階段的費用。

顯示自定義集區計費中高階階段的圖表。

例如,如果您將筆記本作業提交至自定義 Spark 集區,則只會支付會話使用中期間的費用。 一旦 Spark 會話停止或過期,該筆記本會話的計費就會停止。 您不需要支付從雲端取得叢集實例所花費的時間,或初始化 Spark 內容所花費的時間。

根據上一個範例,F64 的可能自定義集區組態:

網狀架構容量 SKU 容量單位 Spark VCore 節點大小 節點數目上限
F64 64 384 Small 96
F64 64 384 48
F64 64 384 大型 24
F64 64 384 X-Large 12
F64 64 384 XX-Large 6

注意

若要建立自定義集區,您需要 工作區的系統管理員 許可權。 而且 Microsoft Fabric 容量管理員必須授與許可權,以允許工作區管理員調整其自定義 Spark 集區的大小。 若要深入瞭解,請參閱 開始使用 Fabric 中的自定義 Spark 集區

節點

Apache Spark 集區實例是由一個前端節點和背景工作節點所組成,可以在 Spark 實例中啟動至少一個節點。 前端節點會執行額外的管理服務,例如 Livy、Yarn Resource Manager、Zookeeper 和 Spark 驅動程式。 所有節點都會執行節點代理程式和 Yarn 節點管理員等服務。 所有背景工作節點都會執行 Spark 執行程式服務。

節點大小

Spark 集區可以定義節點大小,範圍從小型計算節點(具有 4 個虛擬核心和 32 GB 的記憶體)到大型計算節點(每個節點有 64 個虛擬核心和 512 GB 的記憶體)。 節點大小可以在集區建立之後改變,不過必須重新啟動作用中的會話。

大小 虛擬核心 記憶體
Small 4 32 GB
8 64 GB
大型 16 128 GB
X-Large 32 256 GB
XX-Large 64 512 GB

Autoscale

Apache Spark 集區的自動調整可讓您根據活動量自動相應增加和減少計算資源。 當您啟用自動調整功能時,您會設定要調整的節點數目下限和上限。 當您停用自動調整功能時,設定的節點數目會維持固定。 您可以在建立集區之後變更此設定,不過您可能需要重新啟動 實例。

注意

根據預設,spark.yarn.executor.decommission.enabled 會設定為 true,讓使用量過低的節點自動關閉,以將計算效率優化。 如果偏好較不積極的相應減少,此設定可以設定為 false

動態配置

如果工作超過目前執行程式所能承受的負載,動態配置可讓Spark應用程式要求更多執行程式。 它也會在作業完成時釋放執行程式,以及 Spark 應用程式是否移至閑置狀態。 企業使用者通常會發現很難調整執行程式組態,因為它們在Spark作業執行程式的不同階段大不相同。 這些設定也取決於處理的數據量,而這些數據會不時變更。 您可以在集區組態中啟用執行程式選項的動態配置,以根據Spark集區中可用的節點,自動將執行程式配置至Spark應用程式。

當您為每個提交的 Spark 應用程式啟用動態設定選項時,系統會根據最大節點,在作業提交步驟期間保留執行程式。 您可以指定最大節點以支援成功的自動調整案例。