В пользовательском интерфейсе Apache Spark отображается неправильное число заданий

Проблема

Вы просматриваете число активных заданий Apache Spark в кластере в пользовательском интерфейсе Spark, но число слишком велико, чтобы быть точным.

При перезапуске кластера число заданий, отображаемых в пользовательском интерфейсе Spark, будет правильным, но со временем оно постоянно растет.

Причина

Пользовательский интерфейс Spark не всегда является точным для больших или долго выполняющихся кластеров из-за падения событий. В пользовательском интерфейсе Spark для получения сведений о завершении активного задания требуются завершающие записи. Если задание пропустило эту запись из-за ошибок или непредвиденного сбоя, выполнение задания может быть прервано, когда в пользовательском интерфейсе Spark отображается состояние активно.

Решение

Не следует использовать пользовательский интерфейс Spark в качестве источника истинности для активных заданий в кластере.

Метод sc.statusTracker().getActiveJobIds() в API Spark — это надежный способ отслеживания количества активных заданий.

Дополнительные сведения см. в документации по службе " Трассировка состояния Spark ".