分享方式:


在 Visual Studio Code 中建立和管理 Apache Spark 作業定義

Synapse 的 Visual Studio (VS) Code 擴充功能完全支援 Fabric 中的 CURD (建立、更新、讀取和刪除) Spark 作業定義作業。 建立 Spark 作業定義之後,您可以上傳更多參考的連結庫、提交要求以執行 Spark 作業定義,以及檢查執行歷程記錄。

建立Spark作業定義

若要建立新的 Spark 作業定義:

  1. 在 VS Code Explorer 中,選取 [ 建立 Spark 作業定義 ] 選項。

    VS Code Explorer 的螢幕快照,其中顯示要選取 [建立 Spark 作業定義] 選項的位置。

  2. 輸入初始必要欄位:名稱、參考的 Lakehouse 和預設 Lakehouse。

  3. 新建立的 Spark 作業定義的要求進程和名稱會出現在 VS Code Explorer 中的 Spark 作業定義 根節點底下。 在Spark作業定義名稱節點底下,您會看到三個子節點:

    • 檔案:主要定義檔和其他參考的連結庫清單。 您可以從此清單上傳新檔案。
    • Lakehouse:此 Spark 作業定義所參考的所有 Lakehouse 清單。 默認 Lakehouse 會標示在清單中,而您可以透過相對路徑 Files/…, Tables/…加以存取。
    • 執行:此 Spark 作業定義的執行歷程記錄清單,以及每個回合的作業狀態。

將主要定義檔案上傳至參考的連結庫

若要上傳或覆寫主要定義檔,請選取 [ 新增主檔案 ] 選項。

VS Code Explorer 的螢幕快照,其中顯示要選取 [新增主要檔案] 選項的位置。

若要上傳主要定義檔所參考的連結庫檔案,請選取 [ 新增 Lib 檔案 ] 選項。

顯示上傳連結庫按鈕的螢幕快照。

上傳檔案之後,您可以按兩下 [ 更新檔案 ] 選項並上傳新的檔案來覆寫檔案,或者您可以透過 [刪除 ] 選項刪除檔案。

VS Code Explorer 的螢幕快照,其中顯示尋找 [更新檔案] 和 [刪除] 選項的位置。

提交執行要求

若要提交要求以從 VS Code 執行 Spark 作業定義:

  1. 從您想要執行的 Spark 作業定義名稱右邊的選項,選取 [ 執行 Spark 作業 ] 選項。

    VS Code Explorer 的螢幕快照,其中顯示要選取 [執行 Spark 作業的位置]。

  2. 提交要求之後,新的Spark應用程式會出現在 [總管] 清單中的 [執行 ] 節點中。 您可以選取 [取消 Spark 作業] 選項來取消執行中的作業

    VS Code Explorer 的螢幕快照,其中列出 [執行] 節點底下的新 Spark 應用程式,並顯示 [取消 Spark 作業] 選項的位置。

在網狀架構入口網站中開啟Spark作業定義

您可以選取 [在瀏覽器中 開啟] 選項,在 Fabric 入口網站中開啟 Spark 作業定義撰寫頁面。

您也可以選取 已完成執行旁的 [在瀏覽器中 開啟],以查看該執行的詳細監視頁面。

VS Code Explorer 的螢幕快照,其中顯示要選取 [在瀏覽器中開啟] 選項的位置。

偵錯 Spark 作業定義原始程式碼 (Python)

如果使用 PySpark (Python) 建立 Spark 作業定義,您可以下載主要定義檔和參考檔案的.py腳本,並在 VS Code 中偵錯來源腳本。

  1. 若要下載原始程式碼,請選取 Spark 作業定義右邊的 [ 偵錯 Spark 作業定義 ] 選項。

    顯示下載來源按鈕的螢幕快照。

  2. 下載完成之後,原始程式碼的資料夾會自動開啟。

  3. 出現提示時,選取 [ 信任作者] 選項。 (此選項只會在您第一次開啟資料夾時出現。如果您未選取此選項,則無法偵錯或執行來源腳本。如需詳細資訊,請參閱 Visual Studio Code工作區信任安全性

  4. 如果您之前已下載原始程式碼,系統會提示您確認要以新的下載覆寫本機版本。

    注意

    在來源腳本的根資料夾中,系統會建立名為 conf 的子資料夾。 在此資料夾中,名為 lighter-config.json 的檔案包含遠端執行所需的一些系統元數據。 請勿對它進行任何變更。

  5. 名為 sparkconf.py 的檔案包含您需要新增以設定 SparkConf 物件的代碼段。 若要啟用遠端偵錯,請確定 SparkConf 物件已正確設定。 下圖顯示原始版本。

    程式代碼範例的螢幕快照,其中顯示變更前的原始程式碼。

    下一個映像是複製並貼上代碼段之後更新的原始程式碼。

    程式代碼範例的螢幕快照,其中顯示變更后的原始程式碼。

  6. 使用必要的 conf 更新原始程式碼之後,您必須挑選正確的 Python 解釋器。 請務必從 synapse-spark-kernel conda 環境選取已安裝的套件。

編輯 Spark 作業定義屬性

您可以編輯 Spark 作業定義的詳細資料屬性,例如命令行自變數。

  1. 選取 [ 更新 SJD 組態 ] 選項以開啟 settings.yml 檔案。 現有的屬性會填入此檔案的內容。

    顯示 Spark 作業定義 [更新 SJD 組態] 選項的位置螢幕快照。

  2. 更新並儲存.yml檔案。

  3. 選取右上角的 [ 發佈 SJD 屬性] 選項,將變更同步處理回遠端工作區。

    顯示 Spark 作業定義 [發佈 SJD 屬性] 選項的位置螢幕快照。