Zrychlení křížového ověřování

Ladění modelů Apache SparkML v závislosti na velikosti mřížky parametrů trvá velmi dlouhou dobu. V SparkML můžete vylepšit výkon v kroku křížového ověření a zrychlit tak množství těchto věcí:

  • Ukládat data do mezipaměti před spuštěním jakýchkoli transformací funkcí nebo kroků modelování, včetně křížového ověřování. Procesy, které odkazují na data vícenásobně, využívají mezipaměť. Nezapomeňte zavolat akci na, aby se DataFrame mezipaměť projevila.
  • Zvyšte parametr paralelismus uvnitř CrossValidator , který nastaví počet vláken, která se mají použít při spouštění paralelních algoritmů. Výchozí nastavení je 1. Další informace najdete v dokumentaci k CrossValidator .
  • Nepoužívejte kanál jako Estimator uvnitř CrossValidator specifikace. V některých případech, kde se featurizers sestavuje spolu s modelem, je spuštění celého kanálu uvnitř CrossValidator smyslu. Tím se ale spustí celý kanál pro každou kombinaci parametrů a skládání. Proto pokud je laděn pouze model, nastavte specifikaci modelu jako Estimator uvnitř CrossValidator .

Poznámka

CrossValidator dá se nastavit jako závěrečná fáze uvnitř kanálu po featurizers. Nejlepší model identifikovaný CrossValidator je Output.