分享方式:


什麼是 Apache Spark 作業定義?

Apache Spark 作業定義是 Microsoft Fabric 程式代碼專案,可讓您將批次/串流作業提交至 Spark 叢集。 藉由從不同語言的編譯輸出上傳二進位檔(例如來自 Java 的 .jar),您可以將不同的轉換邏輯套用至 Lakehouse 上裝載的數據。 除了二進位檔,您可以上傳更多連結庫和命令行自變數,進一步自定義作業的行為。

若要執行 Spark 作業定義,您必須至少有一個與它相關聯的 Lakehouse。 此預設 Lakehouse 內容可作為 Spark 執行時間的預設檔案系統。 對於使用相對路徑讀取/寫入數據的任何Spark程式代碼,數據會從預設Lakehouse提供。

提示

若要執行 Spark 作業定義專案,您必須有主要定義檔案和預設 Lakehouse 內容。 如果您沒有 Lakehouse,請遵循建立 lakehouse 中的步驟建立一個。