Optimización de trabajos de Apache Spark en HDInsight
En este artículo se proporciona información general sobre las estrategias para optimizar trabajos Apache Spark en Azure HDInsight.
Información general
El rendimiento de los trabajos de Apache Spark depende de varios factores. Estos factores de rendimiento incluyen: cómo se almacenan los datos, cómo se configura el clúster y las operaciones que se usan al procesar los datos.
Entre las dificultades más comunes que pueden surgir se incluyen las restricciones de memoria debido al tamaño incorrecto de los ejecutores, las operaciones de larga duración y las tareas que dan lugar a operaciones cartesianas.
También hay muchas optimizaciones que pueden ayudarle a superar estas dificultades, como el almacenamiento en caché y la posibilidad de sesgar los datos.
En cada uno de los siguientes artículos, puede encontrar información sobre diferentes aspectos de la optimización de Spark.
- Optimización del almacenamiento de datos para Apache Spark
- Optimización del procesamiento de datos para Apache Spark
- Optimización del uso de la memoria para Apache Spark
- Optimización de la configuración de clústeres de HDInsight para Apache Spark