Spark 源码系列 - 获取分区数

本文主要是介绍Spark 源码系列 - 获取分区数，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

版本
结论
代码入口
SparkContext -> textFile
SparkContext -> defaultMinPartitions
SparkContext -> defaultParallelism
TaskSchedulerImpl
LocalSchedulerBackend

版本

本分析基于Spark version 3.1.2

结论

local模式下，默认最小分区数不会超过2

如果对spark.default.parallelism属性赋值 && 值>=2，则分区数为2.
其他情形分区数为1.

代码入口

val conf = new SparkConf()
conf.setAppName("my-spark-01")
conf.setMaster("local")
// 取消如下注释，分区数为2；否则分区数为1
// conf.set("spark.default.parallelism", "3")

val sc = new SparkContext(conf)
val lines = sc.textFile("./data/words")

SparkContext -> textFile

def textFile(
    path: String,
    minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {...}

SparkContext -> defaultMinPartitions

// 默认最小分区数不会超过2
def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

SparkContext -> defaultParallelism

def defaultParallelism: Int = {
  ...
  taskScheduler.defaultParallelism
}

TaskSchedulerImpl

override def defaultParallelism(): Int = backend.defaultParallelism()

LocalSchedulerBackend

// totalCores在系统初始化时赋值为1
// 如果在程序启动时没有设置spark.default.parallelism的值，那么该方法返回值是1
override def defaultParallelism(): Int =
  scheduler.conf.getInt("spark.default.parallelism", totalCores)

这篇关于Spark 源码系列 - 获取分区数的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

Spark 源码系列 - 获取分区数

版本

结论

代码入口

SparkContext -> textFile

SparkContext -> defaultMinPartitions

SparkContext -> defaultParallelism

TaskSchedulerImpl

LocalSchedulerBackend

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯