Hive索引

本文主要是介绍Hive索引，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、描述

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。
Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少Map Reduce任务中需要读取的数据块的数量。
在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格，所以并不是总能生效。

二、Hive原始索引

Hive的索引目的是提高Hive表指定列的查询速度。
没有索引时，类似’WHERE tab1.col1 = 10’ 的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。在每次建立、更新数据后，Hive索引不会自动更新，需要手动进行更新（重建索引以构建索引表），会触发一个mr job。
Hive索引使用过程繁杂，而且性能一般，在Hive3.0中已被删除，在工作环境中不推荐优先使用，在分区数量过多或查询字段不是分区字段时，索引可以作为补充方案同时使用。推荐使用ORC文件格式的索引类型进行查询。

三、Row Group Index

一个ORC文件包含一个或多个stripes(groups of row data)，每个stripe中包含了每个column的min/max值的索引数据，当查询中有<,>,=的操作时，会根据min/max值，跳过扫描不包含的stripes。

而其中为每个stripe建立的包含min/max值的索引，就称为Row Group Index行组索引，也叫min-max Index大小对比索引，或者Storage Index。
在建立ORC格式表时，指定表参数’orc.create.index’=’true’之后，便会建立Row Group Index，需要注意的是，为了使Row Group Index有效利用，向表中加载数据时，必须对需要使用索引的字段进行排序，否则，min/max会失去意义。另外，这种索引主要用于数值型字段的查询过滤优化上。
设置 hive.optimize.index.filter为true，并重启hive

创建表/插入数据

create table lxw1234_orc2 stored as orc
tblproperties (
    'orc.compress'='SNAPPY',
    -- 开启行组索引
    'orc.create.index'='true'
    )
as
    select cast(siteid as int) as id,
           pcid
from lxw1234_text
-- 插入的数据保持排序
distribute by id sort by id;

查询

set hive.optimize.index.filter=true;
select count(1) from lxw1234_orc1 where id >= 1382 and id <= 1399;

四、Bloom Filter Index

在建表时候，通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引，这样，在生成数据的时候，会在每个stripe中，为该字段建立BloomFilter的数据结构，当查询条件中包含对该字段的 = 号过滤时候，先从BloomFilter中获取以下是否包含该值，如果不包含，则跳过该stripe。

创建

create table lxw1234_orc2 stored as orc
tblproperties (
    'orc.compress'='SNAPPY',
    'orc.create.index'='true',
    -- pcid字段开启BloomFilter索引
    'orc.bloom.filter.columns'='pcid'
    )
as
    select cast(siteid as int) as id,
           pcid
from lxw1234_text
distribute by id
sort by id;

查询

set hive.optimize.index.filter=true;
select
       count(1)
from
     lxw1234_orc1
where
      id >= 0 
  and 
      id <= 1000
and pcid in ('00005E25F0CDD', 'A');

这篇关于Hive索引的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

Hive索引

一、描述

二、Hive原始索引

三、Row Group Index

四、Bloom Filter Index

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯