Java教程

Spark源码——shuffle

本文主要是介绍Spark源码——shuffle,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

原理回顾

 

 一个RDD的两个分区的数据shuffle到另一个RDD的两个分区中后,如果上一个RDD还存在其他分区没执行完毕的话,不能往下执行,就会造成当前RDD内存数据挤压

所以中间就需要落盘操作,中间需要磁盘文件File

shuffle一定会有落盘,但是效率慢,如何提高效率?落盘数据量越少速度就会变快。算子如果存在预聚合功能,就会提升shuffle性能

这篇关于Spark源码——shuffle的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!