按阶段增加任务数

使用包时,可以通过在群集的 Spark 配置 中将配置设置更改到较低的值来增加每个阶段 spark-xmlspark.hadoop.mapred.max.split.sizespark-xml。 此配置设置会控制输入块大小。 从 DBFS 读取数据时,会将数据分为输入块,然后将其发送到不同的执行程序。 此配置会控制这些输入块的大小。 默认为 128 MB(128000000 字节)。

在笔记本中使用 spark.conf.set() 设置此值是无效的。

在以下示例中,“Spark Config”字段显示输入块大小为 32 MB。

no-alternative-text