如何在 Fabric 中建立 Apache Spark 作業定義

文章
05/13/2024

在本教學課程中，瞭解如何在 Microsoft Fabric 中建立 Spark 作業定義。

必要條件

在開始之前，您必須：

具有作用中訂用帳戶的 Fabric 租用戶帳戶。免費建立帳戶。

提示

若要執行 Spark 作業定義專案，您必須有主要定義檔案和預設 Lakehouse 內容。如果您沒有 Lakehouse，您可以遵循建立 Lakehouse 中的步驟來建立湖屋。

建立Spark作業定義

Spark 作業定義建立程式快速且簡單;有數種方式可以開始使用。

建立Spark作業定義的選項

有幾種方式可讓您開始使用建立程式：

數據工程首頁：您可以在首頁的 [新增] 區段下，透過Spark作業定義卡輕鬆建立Spark作業定義。
工作區檢視：您也可以使用 [新增] 下拉功能表資料工程師，透過 [工作區] 中的 [工作區] 來建立 Spark 作業定義。
建立檢視：另一個建立Spark作業定義的進入點是 [建立] 頁面資料工程師。

當您建立 Spark 作業定義時，您必須提供名稱。名稱在目前工作區內必須是唯一的。新的Spark作業定義會在您目前的工作區中建立。

建立 PySpark 的 Spark 作業定義（Python）

若要建立 PySpark 的 Spark 作業定義：

下載範例 CSV 檔案 yellow_tripdata_2022_01.csv ，並將其上傳至 Lakehouse 的檔案區段。
建立新的Spark作業定義。
從 [語言] 下拉式列表中選取 [PySpark （Python]。
下載 createTablefromCSV.py 範例，並將其上傳為主要定義檔。主要定義檔（job.Main）是包含應用程式邏輯的檔案，而且是執行 Spark 作業的必要專案。針對每個 Spark 作業定義，您只能上傳一個主要定義檔案。

您可以從本機桌面上傳主要定義檔案，或藉由提供檔案的完整 ABFSS 路徑，從現有的 Azure Data Lake 儲存體（ADLS） Gen2 上傳。例如： abfss://your-storage-account-name.dfs.core.windows.net/your-file-path 。
將參考檔案上傳為 .py 檔案。參考檔案是主要定義檔所匯入的 Python 模組。就像主要定義檔一樣，您可以從桌面或現有的 ADLS Gen2 上傳。支援多個參考檔案。
提示

如果您使用 ADLS Gen2 路徑，若要確定檔案可供存取，您必須為執行作業的用戶帳戶提供記憶體帳戶的適當許可權。我們建議使用兩種不同的方式來執行這項操作：
- 為用戶帳戶指派記憶體帳戶的參與者角色。
- 透過ADLS Gen2 存取控制清單（ACL）將檔案的讀取和執行許可權授與用戶帳戶。
針對手動執行，目前登入使用者的帳戶會用來執行作業。
視需要提供作業的命令行自變數。使用空格做為分隔器來分隔自變數。
將 Lakehouse 參考新增至作業。您必須將至少一個 Lakehouse 參考新增至作業。此 Lakehouse 是作業的預設 Lakehouse 內容。

支援多個 Lakehouse 參考。在Spark 設定 頁面中尋找非預設的Lakehouse名稱和完整的 OneLake URL。

建立 Scala/Java 的 Spark 作業定義

若要建立 Scala/Java 的 Spark 作業定義：

建立新的Spark作業定義。
從 [語言] 下拉式清單中選取 [Spark（Scala/Java]。
將主要定義檔案上傳為 .jar 檔案。主要定義檔案是包含此作業之應用程式邏輯的檔案，而且必須執行Spark作業。針對每個 Spark 作業定義，您只能上傳一個主要定義檔案。提供Main類別名稱。
將參考檔案上傳為 .jar 檔案。參考檔案是主要定義檔所參考/匯入的檔案。
視需要提供作業的命令行自變數。
將 Lakehouse 參考新增至作業。您必須將至少一個 Lakehouse 參考新增至作業。此 Lakehouse 是作業的預設 Lakehouse 內容。

建立 R 的 Spark 作業定義

若要建立SparkR的Spark作業定義（R）：

建立新的Spark作業定義。
從 [語言] 下拉式清單中選取 [SparkR（R]。
將主要定義檔上傳為。R 檔案。主要定義檔案是包含此作業之應用程式邏輯的檔案，而且必須執行Spark作業。針對每個 Spark 作業定義，您只能上傳一個主要定義檔案。
將參考檔案上傳為。R 檔案。參考檔案是主要定義檔所參考/匯入的檔案。
視需要提供作業的命令行自變數。
將 Lakehouse 參考新增至作業。您必須將至少一個 Lakehouse 參考新增至作業。此 Lakehouse 是作業的預設 Lakehouse 內容。

注意

Spark 作業定義將會在您目前的工作區中建立。

自訂 Spark 作業定義的選項

有一些選項可以進一步自定義 Spark 作業定義的執行。

Spark 計算：在 [Spark 計算] 索引標籤內，您可以看到運行時間版本，這是將用來執行作業的 Spark 版本。您也可以查看將用來執行作業的 Spark 組態設定。您可以按下 [ 新增 ] 按鈕來自定義 Spark 組態設定。

優化：在 [優化] 索引標籤上，您可以啟用和設定作業的重試原則。啟用時，如果作業失敗，則會重試作業。您也可以設定重試次數上限和重試之間的間隔。每次重試嘗試時，作業都會重新啟動。請確定作業是 等冪的。

執行 Apache Spark 作業定義

分享方式：

如何在 Fabric 中建立 Apache Spark 作業定義

必要條件