Kruisvalidatie versnellen

Het afstemmen van hyperparameters van Apache SparkML-modellen duurt erg lang, afhankelijk van de grootte van het parameterraster. U kunt de prestaties van de stap voor kruisvalidatie in SparkML verbeteren om het proces te versnellen:

  • De gegevens in de cache opslaan voordat u functietransformaties of modelleringsstappen, inclusief kruisvalidatie, kunt uitvoeren. Processen die meerdere keren naar de gegevens verwijzen, profiteren van een cache. Vergeet niet om een actie aan te roepen op DataFrame de om de cache van kracht te laten worden.
  • Verhoog de parameter parallellisme in de , waarmee het aantal threads wordt bepaald dat CrossValidator moet worden gebruikt bij het uitvoeren van parallelle algoritmen. De standaardinstelling is 1. Zie de CrossValidator-documentatie voor meer informatie.
  • Gebruik de pijplijn niet als estimator binnen de CrossValidator specificatie. In sommige gevallen waarbij de featurizers samen met het model worden afgestemd, is het zinvol om de hele pijplijn in het CrossValidator uit te werken. Hiermee wordt echter de hele pijplijn uitgevoerd voor elke combinatie van parameters en vouwen. Als alleen het model wordt afgestemd, stelt u daarom de modelspecificatie in als de estimator in de CrossValidator .

Notitie

CrossValidator kan worden ingesteld als de laatste fase binnen de pijplijn na de featurizers. Het beste model dat wordt geïdentificeerd door de CrossValidator is uitvoer.