04-MapReduce

本文主要是介绍04-MapReduce，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、MR的核心编程思想

1、概念

① Job(作业) : 一个MR程序称为一个Job

② MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程为 MRAppMaster。

负责Job中执行状态的监控，容错，和RM申请资源，提交Task等！

③ Task(任务)： Task是一个进程！负责某项计算！

④ Map(Map阶段): Map是MapReduce程序运行的第一个阶段！

Map阶段的目的是将输入的数据，进行切分。将一个大数据，切分为若干小部分。切分后，每个部分称为1片(split)，每片数据会交给一个Task（进程）进行计算！

Task负责是Map阶段程序的计算，称为MapTask!

在一个MR程序的Map阶段，会启动N（取决于切片数）个MapTask。每个MapTask是并行运行！

⑤ Reduce(Reduce阶段)： Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)！

Reduce阶段的目的是将Map阶段，每个MapTask计算后的结果进行合并汇总！得到最终结果。Reduce阶段是可选的！

Task负责是Reduce阶段程序的计算，称为ReduceTask!

一个Job可以通过设置，启动N个ReduceTask，这些ReduceTask也是并行运行！

每个ReduceTask最终都会产生一个结果！

2、MapReduce中常用的组件

① Mapper: map阶段核心的处理逻辑

② Reducer: reduce阶段核心的处理逻辑

③ InputFormat: 输入格式

MR程序必须指定一个输入目录，一个输出目录！
InputFormat代表输入目录中文件的格式！
如果是普通文件，可以使用FileInputFormat.
如果是SequeceFile（hadoop提供的一种文件格式），可以使用SequnceFileInputFormat.
如果处理的数据在数据库中，需要使用DBInputFormat

④ RecordReader: 记录读取器

RecordReader负责从输入格式中，读取数据，读取后封装为一组记录(k-v)!

⑤ OutPutFormat: 输出格式

OutPutFormat代表MR处理后的结果，要以什么样的文件格式写出！
将结果写出到一个普通文件中，可以使用FileOutputFormat！
将结果写出到数据库中，可以使用DBOutPutFormat！
将结果写出到SequeceFile中，可以使用SequnceFileOutputFormat

⑥ RecordWriter: 记录写出器

RecordWriter将处理的结果以什么样的格式，写出到输出文件中！

在MR中数据的流程：

InputFormat调用RecordReader，从输入目录的文件中，读取一组数据，封装为keyin-valuein对象
将封装好的key-value，交给Mapper.map()------>将处理的结果写出 keyout-valueout
ReduceTask启动Reducer，使用Reducer.reduce()处理Mapper写出的keyout-valueout，
OutPutFormat调用RecordWriter，将Reducer处理后的keyout-valueout写出到文件

⑦ Partitioner: 分区器

分区器，负责在Mapper将数据写出时，将keyout-valueout，为每组keyout-valueout打上标记，进行分区！

目的：一个ReduceTask只会处理一个分区的数据！

这篇关于04-MapReduce的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

C/C++教程

04-MapReduce

一、MR的核心编程思想

1、概念

2、MapReduce中常用的组件

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯