分享方式:


如何在 Fabric 中建立 Apache Spark 作業定義

在本教學課程中,瞭解如何在 Microsoft Fabric 中建立 Spark 作業定義。

必要條件

在開始之前,您必須:

提示

若要執行 Spark 作業定義專案,您必須有主要定義檔案和預設 Lakehouse 內容。 如果您沒有 Lakehouse,您可以遵循建立 Lakehouse 中的 步驟來建立湖屋

建立Spark作業定義

Spark 作業定義建立程式快速且簡單;有數種方式可以開始使用。

建立Spark作業定義的選項

有幾種方式可讓您開始使用建立程式:

  • 數據工程首頁:您可以在首頁的 [新增] 區段下,透過Spark作業定義卡輕鬆建立Spark作業定義

    顯示選取 Spark 作業定義卡位置的螢幕快照。

  • 工作區檢視:您也可以使用 [新增] 下拉功能表 資料工程師,透過 [工作區] 中的 [工作區] 來建立 Spark 作業定義。

    顯示 [新增] 功能表中選取 Spark 作業定義位置的螢幕快照。

  • 建立檢視:另一個建立Spark作業定義的進入點是 [建立] 頁面 資料工程師。

    顯示在建立中樞上選取 Spark 作業定義位置的螢幕快照。

當您建立 Spark 作業定義時,您必須提供名稱。 名稱在目前工作區內必須是唯一的。 新的Spark作業定義會在您目前的工作區中建立。

建立 PySpark 的 Spark 作業定義 (Python)

若要建立 PySpark 的 Spark 作業定義:

  1. 下載範例 CSV 檔案 yellow_tripdata_2022_01.csv ,並將其上傳至 Lakehouse 的檔案區段。

  2. 建立新的Spark作業定義。

  3. 從 [語言] 下拉式列表中選取 [PySpark (Python]。

  4. 下載 createTablefromCSV.py 範例,並將其上傳為主要定義檔。 主要定義檔 (job.Main) 是包含應用程式邏輯的檔案,而且是執行 Spark 作業的必要專案。 針對每個 Spark 作業定義,您只能上傳一個主要定義檔案。

    您可以從本機桌面上傳主要定義檔案,或藉由提供檔案的完整 ABFSS 路徑,從現有的 Azure Data Lake 儲存體 (ADLS) Gen2 上傳。 例如: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path

  5. 將參考檔案上傳為 .py 檔案。 參考檔案是主要定義檔所匯入的 Python 模組。 就像主要定義檔一樣,您可以從桌面或現有的 ADLS Gen2 上傳。 支援多個參考檔案。

    提示

    如果您使用 ADLS Gen2 路徑,若要確定檔案可供存取,您必須為執行作業的用戶帳戶提供記憶體帳戶的適當許可權。 我們建議使用兩種不同的方式來執行這項操作:

    • 為用戶帳戶指派記憶體帳戶的參與者角色。
    • 透過ADLS Gen2 存取控制清單 (ACL) 將檔案的讀取和執行許可權授與用戶帳戶。

    針對手動執行,目前登入使用者的帳戶會用來執行作業。

  6. 視需要提供作業的命令行自變數。 使用空格做為分隔器來分隔自變數。

  7. 將 Lakehouse 參考新增至作業。 您必須將至少一個 Lakehouse 參考新增至作業。 此 Lakehouse 是作業的預設 Lakehouse 內容。

    支援多個 Lakehouse 參考。 在Spark 設定 頁面中尋找非預設的Lakehouse名稱和完整的 OneLake URL

    顯示已填入主要定義檔案畫面範例的螢幕快照。

建立 Scala/Java 的 Spark 作業定義

若要建立 Scala/Java 的 Spark 作業定義:

  1. 建立新的Spark作業定義。

  2. 從 [語言] 下拉式清單中選取 [Spark(Scala/Java]。

  3. 將主要定義檔案上傳為 .jar 檔案。 主要定義檔案是包含此作業之應用程式邏輯的檔案,而且必須執行Spark作業。 針對每個 Spark 作業定義,您只能上傳一個主要定義檔案。 提供Main類別名稱。

  4. 將參考檔案上傳為 .jar 檔案。 參考檔案是主要定義檔所參考/匯入的檔案。

  5. 視需要提供作業的命令行自變數。

  6. 將 Lakehouse 參考新增至作業。 您必須將至少一個 Lakehouse 參考新增至作業。 此 Lakehouse 是作業的預設 Lakehouse 內容。

建立 R 的 Spark 作業定義

若要建立SparkR的Spark作業定義(R):

  1. 建立新的Spark作業定義。

  2. 從 [語言] 下拉式清單中選取 [SparkR(R]。

  3. 將主要定義檔上傳為 。R 檔案。 主要定義檔案是包含此作業之應用程式邏輯的檔案,而且必須執行Spark作業。 針對每個 Spark 作業定義,您只能上傳一個主要定義檔案。

  4. 將參考檔案上傳為 。R 檔案。 參考檔案是主要定義檔所參考/匯入的檔案。

  5. 視需要提供作業的命令行自變數。

  6. 將 Lakehouse 參考新增至作業。 您必須將至少一個 Lakehouse 參考新增至作業。 此 Lakehouse 是作業的預設 Lakehouse 內容。

注意

Spark 作業定義將會在您目前的工作區中建立。

自訂 Spark 作業定義的選項

有一些選項可以進一步自定義 Spark 作業定義的執行。

  • 優化:在 [優化] 索引標籤上,您可以啟用和設定作業的重試原則。 啟用時,如果作業失敗,則會重試作業。 您也可以設定重試次數上限和重試之間的間隔。 每次重試嘗試時,作業都會重新啟動。 請確定作業是 等冪的

    顯示設定重試原則位置的螢幕快照。