A keresztvallálás felgyorsítás

Az Apache SparkML-modellek hiperparaméter-finomhangolása a paraméterrács méretétől függően nagyon hosszú időt vesz igénybe. A SparkML keresztellenőrzési lépésének teljesítményét a következő lépés felgyorsítása érdekében javíthatja:

  • Gyorsítótárazza az adatokat, mielőtt bármilyen funkcióátalakítást vagy modellezési lépést futtat, beleértve a keresztellenőrzést is. Az adatokra többször hivatkozó folyamatok számára előnyös a gyorsítótár használata. Ne felejtsen el hívni egy műveletet a műveleten, DataFrame hogy a gyorsítótár hatályba lép.
  • Növelje a párhuzamosság paraméterét a értéken belül, amely beállítja a párhuzamos algoritmusok futtatásakor használni szükséges CrossValidator szálak számát. Az alapértelmezett beállítás 1. További információt a CrossValidator dokumentációjában talál.
  • A specifikáción belül ne használja a folyamatot becslére. CrossValidator Bizonyos esetekben, amikor a modellel együtt finomhangoljuk a featurátorokat, a teljes folyamat futtatása CrossValidator a-ben logikus. Ez azonban a teljes folyamatot végrehajtja minden paraméter-kombináció és -összecsukás esetében. Ezért ha csak a modell hangolása történik meg, állítsa be a modell specifikációját becslére a -on CrossValidator belül.

Megjegyzés

CrossValidator A beállítható a folyamat utolsó fázisaként a featurizálók után. A által azonosított legjobb CrossValidator modell a kimenet.