Så här påskyndar du korsvalidering

Hyperparameterjustering av Apache SparkML-modeller tar mycket lång tid, beroende på storleken på parameterrutnätet. Du kan förbättra prestandan för korsvalideringssteget i SparkML för att påskynda saker och ting:

  • Cachelagra data innan du kör några funktionstransformationer eller modelleringssteg, inklusive korsvalidering. Processer som refererar till data flera gånger drar nytta av ett cacheminne. Kom ihåg att anropa en åtgärd för DataFrame att cacheminnet ska gälla.
  • Öka parametern för parallellitet i CrossValidator , som anger antalet trådar som ska användas vid körning av parallella algoritmer. Standardinställningen är 1. Mer information finns i CrossValidator-dokumentationen.
  • Använd inte pipelinen som beräkningsvärde i CrossValidator specifikationen. I vissa fall där featuratorerna finjusteras tillsammans med modellen är det klokt att köra hela pipelinen inuti CrossValidator . Detta kör dock hela pipelinen för varje parameterkombination och viker. Om endast modellen justeras anger du därför modellspecifikationen som beräkningsvärde i CrossValidator .

Anteckning

CrossValidator kan anges som det sista steget i pipelinen efter featurizers. Den bästa modellen som identifieras av CrossValidator är utdata.