Påskynda korsvalidering

Det tar lång tid att justera SparkML-modeller i Apache, beroende på storleken på parameter rutnätet. Du kan förbättra prestandan för Cross-Validation-steget i SparkML för att snabba upp saker:

  • Cachelagra data innan du kör funktions omvandlingar eller modellerings steg, inklusive kors validering. Processer som refererar till data flera gånger drar nytta av en cache. Kom ihåg att anropa en åtgärd på DataFrame för att cachen ska börja gälla.
  • Öka Parallel-parametern inuti CrossValidator , som anger antalet trådar som ska användas när parallella algoritmer körs. Standardvärdet är 1. Mer information finns i CrossValidator-dokumentationen .
  • Använd inte pipelinen som uppskattnings funktionen i CrossValidator specifikationen. I vissa fall där featurizers justeras tillsammans med modellen är det bra att köra hela pipelinen inuti CrossValidator . Detta kör dock hela pipelinen för varje parameter kombination och vikning. Om bara modellen är justerad ställer du därför in modell specifikationen som uppskattnings funktionen i CrossValidator .

Anteckning

CrossValidatorkan anges som det sista steget i pipelinen efter featurizers. Den bästa modellen som identifieras av CrossValidator är utdata.