分享方式:


Apache Spark 應用程式詳細數據監視

透過 Microsoft Fabric,您可以使用 Apache Spark 在工作區中執行筆記本、作業和其他類型的應用程式。 本文說明如何監視 Apache Spark 應用程式,讓您留意作業最近的執行狀態、問題和進度。

檢視 Apache Spark 應用程式

您可以從 Spark 作業定義檢視所有 Apache Spark 應用程式,或筆記本專案操作功能表會顯示最近的執行選項 ->Recent run。

Screenshot showing Recent runs list and details.

您可以在應用程式清單中選取您想要檢視的應用程式名稱,在應用程式詳細數據頁面中,您可以檢視應用程式詳細資料。

監視 Apache Spark 應用程式狀態

開啟筆記本或 Spark 作業定義的 [最近執行] 頁面,您可以檢視 Apache 應用程式的狀態。

  • 成功

Screenshot showing where Succeeded status appears.

  • 佇列

Screenshot showing where Queued status appears.

  • 已停止

Screenshot showing Stopped status.

  • 已取消

Screenshot showing where the canceled status is displayed.

  • 失敗

Screenshot showing where the Failed status appears.

工作

Spark 作業定義筆記本 專案操作功能表開啟 Apache Spark 應用程式作業,會顯示 [最近執行 ] 選項 ->[最近執行 -> 在最近的執行] 頁面中選取作業。

在 Apache Spark 應用程式監視詳細數據頁面中,作業執行清單會顯示在 [作業] 索引標籤中,您可以在這裡檢視每個作業的詳細數據,包括作業標識碼描述狀態階段工作、持續時間、處理數據讀取寫入的數據和代碼段。

  • 按兩下 [作業標識符] 即可展開/折迭作業。
  • 按兩下作業描述,即可跳至Spark UI中的作業或階段頁面。
  • 按兩下作業代碼段,您可以檢查並複製與此作業相關的程式碼。

Screenshot showing the jobs.

資源 (預覽)

執行程式使用狀況圖表會以可視化方式顯示 Spark 作業執行程式和資源使用量的配置。 目前,只有Spark 3.4和更新版本的運行時間資訊才會顯示這項功能。 選取 [資源][預覽],然後起草執行程式使用方式的四種類型曲線,包括 [執行中]、[閑置]、[已配置]、[最大實例]。

Screenshot showing the monitoring resource usage.

  • 針對 [已配置],是指在Spark應用程式執行期間配置的核心情況。

  • 針對 [最大實例],是指配置給Spark應用程式的核心數目上限。

  • 針對 [執行],是指Spark 應用程式在執行時所使用的實際核心數目。 按兩下 Spark 應用程式執行時的時間點。 您可以在圖形底部看到執行中的執行程式核心設定詳細數據。

    Screenshot showing the running executor core allocation details.

  • 針對Idled,它是Spark應用程式執行時未使用的核心數目。

在某些情況下,在某些情況下,工作數目可能會超過執行程式核心的容量(亦即工作編號 > 總計執行程式核心/spark.task.cpus)。 這是如預期般,因為標示為正在執行的工作之間有時間差距,而且它實際上是在執行程式核心上執行。 因此,某些工作可能會顯示為執行中,但不會在任何核心上執行。

選取色彩圖示以選取或取消選取所有圖形中對應的內容。

Screenshot showing the graph select chart

摘要面板

在 [Apache Spark 應用程式監視] 頁面中,按兩下 [ 屬性 ] 按鈕以開啟/折疊摘要面板。 您可以在 [詳細資料] 中檢視此應用程式的詳細資料。

  • 此 Spark 應用程式的狀態。
  • 此 Spark 應用程式的識別碼。
  • 持續時間總計。
  • 此 Spark 應用程式的執行持續時間。
  • 此 Spark 應用程式的佇列持續時間。
  • Livy ID
  • 此 Spark 應用程式的提交者。
  • 提交此 Spark 應用程式的時間。
  • 執行程序的數目。

Screenshot showing the summary for spark application.

記錄

針對 [記錄] 索引標籤,您可以檢視 LivyPrelaunch、Driver 記錄的完整記錄並在左面板中選取不同的選項。 您可以藉由搜尋關鍵詞並篩選記錄狀態來檢視記錄檔,直接擷取所需的記錄資訊。 按兩下 [下載記錄檔] 將記錄資訊下載到本機。

有時候沒有可用的記錄,例如作業的狀態已排入佇列,叢集建立失敗。

只有在應用程式提交失敗時,才能使用實時記錄,而且也會提供驅動程序記錄。

Screenshot showing the logs for spark application.

資料

針對 [ 資料] 索引標籤,您可以在剪貼簿上複製資料清單、下載資料清單和單一數據,以及檢查每個數據的屬性。

  • 左面板可以展開或折疊。
  • 輸入和輸出檔案的名稱、讀取格式、大小、來源和路徑將會在此清單中顯示。
  • 輸入和輸出中的檔案可以下載、複製路徑和檢視屬性。

Screenshot showing the data for spark application.

[ 相關專案 ] 索引標籤可讓您瀏覽和檢視與 Apache Spark 應用程式相關聯的專案,包括 Notebook、Spark 作業定義和/或管線。 相關項目頁面會在 Notebooks 執行時顯示程式代碼和參數值的快照集。 它也會在提交 Spark 作業定義時顯示所有設定和參數的快照集。 如果 Apache Spark 應用程式與管線相關聯,相關項目頁面也會顯示對應的管線和 Spark 活動。

在 [相關專案] 畫面中,您可以:

  • 流覽並流覽階層式樹狀結構中的相關專案。
  • 按兩下每個專案的 [更多動作清單] 省略號圖示,以採取不同的動作。
  • 按兩下快照集專案以檢視其內容。
  • 檢視階層連結,以查看從選取的專案到根目錄的路徑。

Screenshot showing the related items for spark application.

診斷

診斷面板為使用者提供即時建議和錯誤分析,這些建議是由 Spark Advisor 透過使用者程式代碼的分析所產生。 使用內建模式時,Apache Spark Advisor 可協助使用者避免常見的錯誤,並分析失敗以找出其根本原因。

Screenshot showing the diagnostics for spark application.

檢視 Apache Spark 應用程式詳細數據之後的下一個步驟是檢視 Notebook 數據格下方的 Spark 作業進度 。 您可以參考: