hive的运行过程解析 - 为之网

Java教程

hive的运行过程解析

本文主要是介绍hive的运行过程解析，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

数据的底层存储是文件

hive的计算框架是mapreduce，mapreduce的原理:

图上是整个mapreduce的运行过程，在各自的分片中，都是把数据分割以后每个值都对应一个1得到<key,1>，再经过本地reduce（combine过程）把key一样的value=1相加，得到新的<key，values>，再经过shuffle过程，把所有分片中的<key,values>,key一致的values相加，又得到最终的<key,values>。
combiner其实是一个本地的reduce主要就是为了减轻reduce的负担，但并不是所有的场景都会发生combiner，例如求平均数
不会发送combiner的操作主要体现在不带 group by 的count(distinct) 这种操作，所有的数据都会分发的一个reduce上，数据产出极慢

这篇关于hive的运行过程解析的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯