hive里面的两种join:
Hive Common Join:如果不主动指定MapJoin或者不符合MapJoin的条件,Hive解析器默认的Join操作就是Common Join,即在Reduce阶段完成Join,过程如下
Map阶段 :以关联键的组合为key,value为join之后关心的列,按照key排序,value中会包含表的tag信息,用于标明此value属于哪个表
Shuffle阶段:根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中
reduce阶段:根据key的值完成join操作,期间通过tag来识别不同表中的数据
Hive Map Join:MapJoin通常用于一个很小的表和一个大表进行join的场景。过程如下:
首先是一个Local task,我们暂称为taskA,它负责扫描小表b的数据,将其转化为一个hashtable的结构,并写入本地文件,之后将该文件加载到DistributeCache中,该HashTable的数据结构可以抽象为下面的表。
接下来是一个没有reduce的MR,我们暂称之为taskB,它启动MapTasks扫描大表a,在Map阶段根据a的每一条记录去和DistributeCache中b表对应的HashTable关联,并直接输出结果。
由于MapJoin没有Reduce,所以Map直接输出结果文件,有多少map,就有多少结果文件
对同一张表的union all要比多重insert快得多。
原因是hive本身对这种union all做过优化,即只扫描依次源表,多重insert虽然也只扫描一次,但因为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长
并行执行可以加快任务的执行速率,但不会减少其占用的资源
在系统资源比较空闲的时候才有优势,否则,并行不起来
如果Hive中运行的sql本身数据量很小,那么使用本地mr的效率要比提交到Hadoop集群中运行快很多
症状:
任务进度长时间维持在99%(或100%);
查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。
本地读写数据量很大。
导致数据倾斜的操作:GROUP BY, COUNTDISTINCT, join
原因:key分布不均匀,业务数据本身特点
常用的数据倾斜解决办法:
使用COUNT DISTINCT和GROUP BY造成的数据倾斜:存在大量空值或NULL,或者某一个值的记录特别多,可以先把该值过滤掉,在最后单独处理:
多重COUNT DISTINCT:通常使用UNION ALL +ROW_NUMBER() + SUM + GROUP BY来变通实现。
使用JOIN引起的数据倾斜:关联键存在大量空值或者某一特殊值,如”NULL”,可以空值单独处理,不参与关联,或者空值或特殊值加随机数作为关联键;不同数据类型的字段关联,则可以转换为同一数据类型之后再做关联
首先是控制Map数:
根据实际情况来进行控制map的数量,主要是要遵循两个原则:
是不是map越多越好:答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的
是不是保证每个map处理接近128m的文件块,就高枕无忧了?:答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。
控制hive任务的reduce数:同样的,在设置reduce个数的时候也需要考虑这两个原则:使大数据量利用合适的reduce数;使单个reduce任务处理合适的数据量;
Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:
hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)
hive.exec.reducers.max(每个任务最大的reduce数,默认为999)
调整reduce个数方法就在于调整合理的参数
reduce个数并不是越多越好:同map一样,启动和初始化reduce也会消耗时间和资源;另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;
什么情况下只有一个reduce:没有group by的汇总、用了Order by、有笛卡尔积