Java教程

spark内核与源码

本文主要是介绍spark内核与源码,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

spark内核与源码

  • 一、环境准备(Yarn集群)
  • 二、组件通信
  • 三、应用程序的执行
    • 1、RDD依赖
    • 2、阶段划分
    • 3、任务切分
    • 4、任务的调度
    • 5、任务执行
  • 四、Shuffle
    • 1、Shuffle 的原理和执行过程
    • 2、Shuffle 写磁盘
    • 3、Shuffle 读取磁盘
  • 五、内存的管理
    • 1、内存的分类
    • 2、内存的配置

一、环境准备(Yarn集群)

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
spark-submit
--class org.apache.spark.examples.SparkPi
--master  local[2]
../examples/jars/spark-examples_2.12-3.0.0.jar
10

在这里插入图片描述

二、组件通信

Driver => Executor
在这里插入图片描述

三、应用程序的执行

1、RDD依赖

在这里插入图片描述

2、阶段划分

在这里插入图片描述

3、任务切分

4、任务的调度

在这里插入图片描述

5、任务执行

在这里插入图片描述

四、Shuffle

在这里插入图片描述
在这里插入图片描述

1、Shuffle 的原理和执行过程

  • shuffleWriterProcessor(写处理器)
  • ShuffleManager: Hash(早期) & Sort(当前)

在这里插入图片描述

2、Shuffle 写磁盘

在这里插入图片描述

3、Shuffle 读取磁盘

五、内存的管理

1、内存的分类

在这里插入图片描述

2、内存的配置

在这里插入图片描述

这篇关于spark内核与源码的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!