Zrychlení křížového ověřování
Ladění modelů Apache SparkML v závislosti na velikosti mřížky parametrů trvá velmi dlouhou dobu. V SparkML můžete vylepšit výkon v kroku křížového ověření a zrychlit tak množství těchto věcí:
- Ukládat data do mezipaměti před spuštěním jakýchkoli transformací funkcí nebo kroků modelování, včetně křížového ověřování. Procesy, které odkazují na data vícenásobně, využívají mezipaměť. Nezapomeňte zavolat akci na, aby se
DataFrame
mezipaměť projevila. - Zvyšte parametr paralelismus uvnitř
CrossValidator
, který nastaví počet vláken, která se mají použít při spouštění paralelních algoritmů. Výchozí nastavení je 1. Další informace najdete v dokumentaci k CrossValidator . - Nepoužívejte kanál jako Estimator uvnitř
CrossValidator
specifikace. V některých případech, kde se featurizers sestavuje spolu s modelem, je spuštění celého kanálu uvnitřCrossValidator
smyslu. Tím se ale spustí celý kanál pro každou kombinaci parametrů a skládání. Proto pokud je laděn pouze model, nastavte specifikaci modelu jako Estimator uvnitřCrossValidator
.
Poznámka
CrossValidator
dá se nastavit jako závěrečná fáze uvnitř kanálu po featurizers. Nejlepší model identifikovaný CrossValidator
je Output.