وظيفة البث تتعثر الكتابة إلى نقطة تفتيش

مشكلة

أنت تراقب مهمة بث، ولاحظ أنه يبدو عالقا عند معالجة البيانات.

عند مراجعة السجلات، تكتشف المهمة يحصل عالقا عند كتابة البيانات إلى نقطة تفتيش.

INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=89),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/89]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=37),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/37]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 313920 for HDFSStateStoreProvider[id = (op=0,part=25),dir = dbfs:/FileStore/PYTHON_CHECKPOINT5/state/0/25]:

السبب

تحاول استخدام موقع نقطة تفتيش في مسار DBFS المحلي.

query = streamingInput.writeStream.option("checkpointLocation", "/FileStore/checkpoint").start()

حل

يجب استخدام التخزين المستمر لنقاط التحقق الدفق.

يجب عدم استخدام DBFS لتدفق تخزين نقطة تفتيش.