Hudi，Hive Sync，实现湖仓一体操作

本文主要是介绍Hudi，Hive Sync，实现湖仓一体操作，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、将Hudi数据同步到Hive

1）需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar，放到对应的环境中，../CDH/jars 和 ../CDH/lib/hive/lib下面，具体步骤可以参考Flink1.3.1+Hudi0.10初探

cd /app/hudi-0.10.0/packaging/hudi-hadoop-mr-bundle/target
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/lib/hive/lib
cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/jars

# 在hive的辅助jar，auxlib目录下也需要放相应的jar
cp hudi-hadoop-mr-bundle-0.10.0.jar /usr/local/src/hook/hive

2）测试数据

uuid,name,addr,phone,update_date,bir_date
1,逝去的青春,上海市宝山区,183****1111,20200805,20020101
2,葬爱,上海市虹口区,183****2222,20200805,20020101
3,罙罙の回憶,上海市虹口区,183****3333,20200805,20020101
4,忘了天空的颜色,上海市虹口区,183****4444,20200805,20020101
5,李彦龙,上海市松江区,183****5555,20200801,20010101
6,李浩鹏,上海市松江区,183****6666,20200801,20010101
7,李天一,上海市松江区,183****7777,20200801,20010101
8,李朵雯,上海市松江区,183****8888,20200801,20010101
9,李雨杭,上海市松江区,183****9999,20200801,20010101
10,王满,杭州市西湖区,153****0000,20200802,20000101
11,王琳,杭州市西湖区,153****1111,20200802,20000101
12,王昕,杭州市西湖区,153****2222,20200802,20000101
13,贾一一,杭州市西湖区,153****3333,20200802,20000101
14,石浩,西安市莲湖区,137****4444,20200803,19970101
15,石子彤,西安市莲湖区,137****5555,20200803,19970101
16,许放炮的,西安市莲湖区,137****6666,20200803,19970101

3）pom.xml

二、在使用spark2.4.0-cdh6.2.1查询同步的hive表时，存在错误，因为先前修改源码为了写入数据，建议升级spark为2.4.3以上（以下实践在spark2.4.5上进行）

注：如果只是将上游数据写入hudi，同时同步到hive中，如果后续spark不读取生成rt或者ro表，使用2.4.0版本是没问题的，但如果需要使用spark继续对生成的hive进行处理，建议升级版本2.4.3以上

1）

这篇关于Hudi，Hive Sync，实现湖仓一体操作的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

C/C++教程

Hudi，Hive Sync，实现湖仓一体操作

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯