Streaming-taak loopt vast bij schrijven naar controlepunt

Probleem

U wilt een streaming-taak bewaken en u ziet dat deze vastloopt bij het verwerken van gegevens.

Wanneer u de logboeken bekijkt, ontdekt u dat de taak vastloopt bij het schrijven van gegevens naar een controlepunt.

INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=89),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/89]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=37),dir = dbfs:/FileStore/R_CHECKPOINT5/state/0/37]:
INFO StateStore: Retrieved reference to StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef@56a4cb80
INFO HDFSBackedStateStoreProvider: Deleted files older than 313920 for HDFSStateStoreProvider[id = (op=0,part=25),dir = dbfs:/FileStore/PYTHON_CHECKPOINT5/state/0/25]:

Oorzaak

U probeert een controlepuntlocatie te gebruiken in uw lokale DBFS-pad.

query = streamingInput.writeStream.option("checkpointLocation", "/FileStore/checkpoint").start()

Oplossing

U moet permanente opslag gebruiken voor streaming controlepunten.

Gebruik DBFS niet voor het streamen van controlepuntopslag.