Apache Spark kullanıcı arabiriminde iş sayısı yanlış gösteriliyor

Sorun

Spark Kullanıcı arabirimindeki bir kümede etkin Apache Spark işlerinin sayısını inceliyorsunuz, ancak sayı doğru olması için çok yüksek.

Kümeyi yeniden başlatırsanız, Spark Kullanıcı arabiriminde gösterilen işlerin sayısı ilk başta doğrudur, ancak zamana göre büyük ölçüde artar.

Nedeni

Spark Kullanıcı arabirimi, olay bırakmaları nedeniyle büyük veya uzun süre çalışan kümeler için her zaman doğru değildir. Spark Kullanıcı arabirimi, etkin bir işin ne zaman tamamlandığını bildirmek için sonlandırma girişleri gerektirir. Bir iş, hatalar veya beklenmeyen hata nedeniyle bu girişi reddetirken, Spark Kullanıcı arabiriminde yanlışlıkla etkin olarak gösterildiği sürece iş çalışmayı durdurabilir.

Çözüm

Spark Kullanıcı arabirimini bir kümede bulunan etkin işler için Truth kaynağı olarak kullanmamalısınız.

sc.statusTracker().getActiveJobIds()Spark API 'sindeki yöntemi, etkin işlerin sayısını izlemenin güvenilir bir yoludur.

Daha fazla bilgi için lütfen Spark durum izleyici belgelerini gözden geçirin.