本文主要是介绍spark内核与源码,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
spark内核与源码
- 一、环境准备(Yarn集群)
- 二、组件通信
- 三、应用程序的执行
- 1、RDD依赖
- 2、阶段划分
- 3、任务切分
- 4、任务的调度
- 5、任务执行
- 四、Shuffle
- 1、Shuffle 的原理和执行过程
- 2、Shuffle 写磁盘
- 3、Shuffle 读取磁盘
- 五、内存的管理
-
一、环境准备(Yarn集群)
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
spark-submit
--class org.apache.spark.examples.SparkPi
--master local[2]
../examples/jars/spark-examples_2.12-3.0.0.jar
10
二、组件通信
Driver => Executor
三、应用程序的执行
1、RDD依赖
2、阶段划分
3、任务切分
4、任务的调度
5、任务执行
四、Shuffle
1、Shuffle 的原理和执行过程
- shuffleWriterProcessor(写处理器)
- ShuffleManager: Hash(早期) & Sort(当前)
2、Shuffle 写磁盘
3、Shuffle 读取磁盘
五、内存的管理
1、内存的分类
2、内存的配置
这篇关于spark内核与源码的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!