① Job(作业) : 一个MR程序称为一个Job
② MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。
负责Job中执行状态的监控,容错,和RM申请资源,提交Task等!
③ Task(任务): Task是一个进程!负责某项计算!
④ Map(Map阶段): Map是MapReduce程序运行的第一个阶段!
Map阶段的目的是将输入的数据,进行切分。将一个大数据,切分为若干小部分。切分后,每个部分称为1片(split),每片数据会交给一个Task(进程)进行计算!
Task负责是Map阶段程序的计算,称为MapTask!
在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行!
⑤ Reduce(Reduce阶段): Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)!
Reduce阶段的目的是将Map阶段,每个MapTask计算后的结果进行合并汇总!得到最终结果。Reduce阶段是可选的!
Task负责是Reduce阶段程序的计算,称为ReduceTask!
一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行!
每个ReduceTask最终都会产生一个结果!
① Mapper: map阶段核心的处理逻辑
② Reducer: reduce阶段核心的处理逻辑
③ InputFormat: 输入格式
④ RecordReader: 记录读取器
RecordReader负责从输入格式中,读取数据,读取后封装为一组记录(k-v)!
⑤ OutPutFormat: 输出格式
⑥ RecordWriter: 记录写出器
RecordWriter将处理的结果以什么样的格式,写出到输出文件中!
在MR中数据的流程:
⑦ Partitioner: 分区器
分区器,负责在Mapper将数据写出时,将keyout-valueout,为每组keyout-valueout打上标记,进行分区!
目的: 一个ReduceTask只会处理一个分区的数据!