sparksql优化之join

本文主要是介绍sparksql优化之join，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

前言

本文是以下两篇文章的总结。
Spark SQL join的三种实现方式 - 多读书多看报 - 博客园 (cnblogs.com)

Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

流式遍历表(streamIter)和查找表(buildIter)的概念见Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

一般streamlter是大表，bulidler是小表

sort merge join：有shuffle操作，适用于两张大表

broadcast join：把bulidler表广播到每个executor里，所以builder表应该小一点，sparks中默认builder表小于10M时使用broadcast join方法，适用于大表+小表

hash join：默认不开启，开启了sort merge join也比它差不了太多，适用于大表+小表（比broadcast的小表略大）

inner join：我们在写sql语句或者使用DataFrmae时，可以不用关心哪个是左表，哪个是右表，在spark sql查询优化阶段，spark会自动将大表设为左表，即streamIter，将小表设为右表，即buildIter。

left outer join是以左表为准，在右表中查找匹配的记录，如果查找失败，则返回一个所有字段都为null的记录。我们在写sql语句或者使用DataFrmae时，一般让大表在左边，小表在右边。

right outer join是以右表为准，在左表中查找匹配的记录，如果查找失败，则返回一个所有字段都为null的记录。所以说，右表是streamIter，左表是buildIter，我们在写sql语句或者使用DataFrmae时，一般让大表在右边，小表在左边。

full outer join 不用关心左表右表

Spark SQL join的三种实现方式 - 多读书多看报 - 博客园 (cnblogs.com)

Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

这篇关于sparksql优化之join的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！