一、将Hudi数据同步到Hive
1)需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar,放到对应的环境中,../CDH/jars 和 ../CDH/lib/hive/lib下面,具体步骤可以参考Flink1.3.1+Hudi0.10初探
cd /app/hudi-0.10.0/packaging/hudi-hadoop-mr-bundle/target cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/lib/hive/lib cp hudi-hadoop-mr-bundle-0.10.0.jar /opt/cloudera/parcels/CDH/jars # 在hive的辅助jar,auxlib目录下也需要放相应的jar cp hudi-hadoop-mr-bundle-0.10.0.jar /usr/local/src/hook/hive
2)测试数据
uuid,name,addr,phone,update_date,bir_date 1,逝去的青春,上海市宝山区,183****1111,20200805,20020101 2,葬爱,上海市虹口区,183****2222,20200805,20020101 3,罙罙の回憶,上海市虹口区,183****3333,20200805,20020101 4,忘了天空的颜色,上海市虹口区,183****4444,20200805,20020101 5,李彦龙,上海市松江区,183****5555,20200801,20010101 6,李浩鹏,上海市松江区,183****6666,20200801,20010101 7,李天一,上海市松江区,183****7777,20200801,20010101 8,李朵雯,上海市松江区,183****8888,20200801,20010101 9,李雨杭,上海市松江区,183****9999,20200801,20010101 10,王满,杭州市西湖区,153****0000,20200802,20000101 11,王琳,杭州市西湖区,153****1111,20200802,20000101 12,王昕,杭州市西湖区,153****2222,20200802,20000101 13,贾一一,杭州市西湖区,153****3333,20200802,20000101 14,石浩,西安市莲湖区,137****4444,20200803,19970101 15,石子彤,西安市莲湖区,137****5555,20200803,19970101 16,许放炮的,西安市莲湖区,137****6666,20200803,19970101
3)pom.xml
二、在使用spark2.4.0-cdh6.2.1查询同步的hive表时,存在错误,因为先前修改源码为了写入数据,建议升级spark为2.4.3以上(以下实践在spark2.4.5上进行)
注:如果只是将上游数据写入hudi,同时同步到hive中,如果后续spark不读取生成rt或者ro表,使用2.4.0版本是没问题的,但如果需要使用spark继续对生成的hive进行处理,建议升级版本2.4.3以上
1)