Optimización de trabajos de Apache Spark en HDInsightOptimize Apache Spark jobs in HDInsight

En este artículo se proporciona información general sobre las estrategias para optimizar trabajos Apache Spark en Azure HDInsight.This article provides an overview of strategies to optimize Apache Spark jobs on Azure HDInsight.

Información generalOverview

El rendimiento de los trabajos de Apache Spark depende de varios factores.The performance of your Apache Spark jobs depends on multiple factors. Estos factores de rendimiento incluyen: cómo se almacenan los datos, cómo se configura el clúster y las operaciones que se usan al procesar los datos.These performance factors include: how your data is stored, how the cluster is configured, and the operations that are used when processing the data.

Entre las dificultades más comunes que pueden surgir se incluyen las restricciones de memoria debido al tamaño incorrecto de los ejecutores, las operaciones de larga duración y las tareas que dan lugar a operaciones cartesianas.Common challenges you might face include: memory constraints due to improperly sized executors, long-running operations, and tasks that result in cartesian operations.

También hay muchas optimizaciones que pueden ayudarle a superar estas dificultades, como el almacenamiento en caché y la posibilidad de sesgar los datos.There are also many optimizations that can help you overcome these challenges, such as caching, and allowing for data skew.

En cada uno de los siguientes artículos, puede encontrar información sobre diferentes aspectos de la optimización de Spark.In each of the following articles, you can find information on different aspects of Spark optimization.

Pasos siguientesNext steps