Strömningsjobb fastnar vid skrivning till kontrollpunkt

Problem

Du övervakar ett strömningsjobb och ser att det verkar fastna när data bearbetas.

När du granskar loggarna upptäcker du att jobbet fastnar när du skriver data till en kontrollpunkt.

INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=89),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/89]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=37),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/37]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 313920 for HDFSStateStoreProvider[id = (op=0,part=25),dir = dbfs:/FileStore/PYTHON_CHECKPOINT5/state/0/25]:

Orsak

Du försöker använda en kontrollpunktsplats i din lokala DBFS-sökväg.

query = streamingInput.writeStream.option("checkpointLocation", "/FileStore/checkpoint").start()

Lösning

Du bör använda beständig lagring för kontrollpunkter för direktuppspelning.

Du bör inte använda DBFS för lagring av kontrollpunkter för direktuppspelning.