Delen via


Eén Spark-taak

Als u een langlopende fase met slechts één taak ziet, is dat waarschijnlijk een teken van een probleem. Hoewel met deze ene taak slechts één CPU wordt uitgevoerd en de rest van het cluster mogelijk niet actief is. Dit gebeurt het vaakst in de volgende situaties:

  • Dure UDF op kleine gegevens
  • Vensterfunctie zonder PARTITION BY instructie
  • Lezen vanuit een niet-splitsbaar bestandstype. Dit betekent dat het bestand niet in meerdere onderdelen kan worden gelezen, dus u eindigt met één grote taak. Gzip is een voorbeeld van een niet-splitsbaar bestandstype.
  • De optie instellen bij het multiLine lezen van een JSON- of CSV-bestand
  • Schemadeductie van een groot bestand
  • Gebruik van repartition(1) of coalesce(1)