Spark中的内存计算是什么?

本文主要是介绍Spark中的内存计算是什么?，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。

Spark中的内存计算是什么?Spark中的内存计算是什么?

在 Spark 中，内存计算有两层含义：

第一层含义就是众所周知的分布式数据缓存;
第二层含义是 Stage 内的流水线式计算模式,通过计算的融合来大幅提升数据在内存中的转换效率，进而从整体上提升应用的执行性能;

那 Stage 内的流水线式计算模式到底长啥样呢?在 Spark 中，流水线计算模式指的是：在同一 Stage 内部，所有算子融合为一个函数，Stage 的输出结果,由这个函数一次性作用在输入数据集而产生。

我们用一张图来直观地解释这一计算模式。

Spark中的内存计算是什么?Spark中的内存计算是什么?

在上面的计算流程中，如果你把流水线看作是内存，每一步操作过后都会生成临时数据，如图中的 clean 和 slice，这些临时数据都会缓存在内存里。

但在下面的内存计算中，所有操作步骤如 clean、slice、bake，都会被捏合在一起构成一个函数。这个函数一次性地作用在“带泥土豆”上，直接生成“即食薯片”，在内存中不产生任何中间数据形态。

由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。但是，当我们对内存计算有了多方位理解以后，就不会一股脑地只想到用 cache 去提升应用的执行性能，而是会更主动地想办法尽量避免 Shuffle，让应用代码中尽可能多的部分融合为一个函数，从而提升计算效率。

本文地址：https://www.linuxprobe.com/spark-memory-compute.html

这篇关于Spark中的内存计算是什么?的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

Spark中的内存计算是什么?

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯