当你核心少但任务多时,就会出现这种情况哦,手忙脚乱的 🤷
贪多不一定是好事!不相信吗?问问数据工程师,他一接到任务就揽下来,从不会拒绝。(哎呀,不好意思,是不是冒犯到你了🙈🤐?)
你也可以问问那个刚刚多了5个新任务的家伙,因为他搞不定你的Spark作业需要多少核心! 🙃
但是,说真的,假设你被交给一个任务,即搭建一个能“高效”处理100GB数据的Spark集群。
你准备怎么开始呢?
我来给你展示一下老板他是怎么做的。😏
第一步:需要多少执行核心?我们先决定需要多少执行核心 🤔
既然我们知道了核心数量,接下来我们就得确定需要多少执行器。
平均来说,一般建议在一个executor中拥有2到5个执行核心
如果一个executor中的核心数量是4,那么总共的executor数量 = 800/4 = 200
显然地,这个数字会根据你在一个执行器里保留了多少执行核心而变化 😄
步骤 3:所需的总执行内存?重要的一点!给每个执行器分配多少内存?🤔
执行器核心的总内存通常
默认分区内存的4倍 = 4×128 = 512 MB
所以,总执行内存 = 核心数 512 = 4 512 = 2GB
总结:处理100GB数据总共需要多少内存我们来了!🥳让我们确认处理100GB数据所需的总内存吧
因此,要处理100GB的数据,需要至少400GB的总内存来实现完全并行处理。
也就是说,所有任务都会一起运行 😲
另外一步:驱动程序内存应该设置为多少?说,运行一个任务要花5分钟,处理100GB的数据量需要多久?——答案还是5分钟!! 因为所有任务都并行运行
df.collect()
,则需要 100GB 的驱动器内存,因为所有执行器的数据都会被发送到驱动器。伙计,这就是高效处理100GB数据的方法 😉
需要注意的一点是,这是一个理想的方案,可以很容易地调整以适应项目的预算需求完全没问题
如果项目预算比较紧张,你可以将人员数量减半或减至原来的四分之三。不过这样做的话,处理的时间肯定会因此变长。
如果你喜欢,请点赞 👏,让更多数据工程师看到它。
谢谢你的阅读, 😁