Eén Spark-taak

Artikel
04/19/2024

Als u een langlopende fase met slechts één taak ziet, is dat waarschijnlijk een teken van een probleem. Hoewel met deze ene taak slechts één CPU wordt uitgevoerd en de rest van het cluster mogelijk niet actief is. Dit gebeurt het vaakst in de volgende situaties:

Dure UDF op kleine gegevens
Vensterfunctie zonder PARTITION BY instructie
Lezen vanuit een niet-splitsbaar bestandstype. Dit betekent dat het bestand niet in meerdere onderdelen kan worden gelezen, dus u eindigt met één grote taak. Gzip is een voorbeeld van een niet-splitsbaar bestandstype.
De optie instellen bij het multiLine lezen van een JSON- of CSV-bestand
Schemadeductie van een groot bestand
Gebruik van repartition(1) of coalesce(1)

Delen via

Eén Spark-taak

Feedback

Feedback

Aanvullende resources