Optimalizace úloh Apache Spark v HDInsight
Tento článek poskytuje přehled strategií pro optimalizaci Apache Spark úloh v Azure HDInsight.
Přehled
Výkon vašich Apache Spark úloh závisí na několika faktorech. Mezi tyto faktory výkonu patří: způsob ukládání dat, způsob konfigurace clusteru a operace, které se používají při zpracování dat.
Mezi běžné problémy, které by se vám mohly vzniknout, patří: omezení paměti kvůli nesprávně změně velikosti prováděcích modulů, dlouhotrvajících operací a úloh, které způsobují kartézském operace.
K dispozici je také mnoho optimalizací, které vám pomůžou překonat tyto výzvy, jako je ukládání do mezipaměti a umožnění zešikmení dat.
V každém z následujících článků můžete najít informace o různých aspektech funkce pro optimalizaci Sparku.
- Optimalizace úložiště dat pro Apache Spark
- Optimalizujte zpracování dat pro Apache Spark
- Optimalizace využití paměti pro Apache Spark
- Optimalizace konfigurace clusteru HDInsight pro Apache Spark