Eén Spark-taak
Als u een langlopende fase met slechts één taak ziet, is dat waarschijnlijk een teken van een probleem. Hoewel met deze ene taak slechts één CPU wordt uitgevoerd en de rest van het cluster mogelijk niet actief is. Dit gebeurt het vaakst in de volgende situaties:
- Dure UDF op kleine gegevens
- Vensterfunctie zonder
PARTITION BY
instructie - Lezen vanuit een niet-splitsbaar bestandstype. Dit betekent dat het bestand niet in meerdere onderdelen kan worden gelezen, dus u eindigt met één grote taak. Gzip is een voorbeeld van een niet-splitsbaar bestandstype.
- De optie instellen bij het
multiLine
lezen van een JSON- of CSV-bestand - Schemadeductie van een groot bestand
- Gebruik van repartition(1) of coalesce(1)
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor