Apache Spark ジョブ定義とは

Apache Spark ジョブ定義は、バッチまたはストリーミングのジョブを Spark クラスターに送信できるようにする Microsoft Fabric コード項目です。 異なる言語のコンパイル出力 (Java の .jar など) からバイナリ ファイルをアップロードすることで、レイクハウスでホストされているデータに異なる変換ロジックを適用できます。 バイナリ ファイルに加えて、追加のライブラリとコマンド ライン引数をアップロードすることで、ジョブの動作をさらにカスタマイズできます。

Spark ジョブ定義を実行するには、少なくとも 1 つの Lakehouse が関連付けられている必要があります。 この既定の Lakehouse コンテキストは、Spark ランタイムの既定のファイル システムとして機能します。 相対パスを使用してデータの読み取り/書き込みを行う Spark コードの場合、データは既定の Lakehouse から提供されます。

ヒント

Spark ジョブ定義を実行するには、メイン定義ファイルと既定のレイクハウス コンテキストが必要です。 Lakehouse がない場合は、「Lakehouse の作成」記事の手順に従って作成してください。