C/C++教程

第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)

本文主要是介绍第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1.说明

  /*
  * RDD 任务切分中间分为:Application、Job、Stage 和 Task
      Application:初始化一个SparkContext即生成一个Application;
            new SparkConf().setMaster("local").setAppName("distinctTest")
      Job:一个Action算子就会生成一个Job
            每触发一个Action算子,就会提交一个job
      Stage:Stage等于宽依赖(ShuffleDependency)的个数加1;
            将每个job,根据是否Shuffle 拆分成不同的Stage
      Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。

      note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。
  *
  * */

2.示例

  object TaskTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")


    private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))


    private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)

    private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))

    println("****rdd*********************")
    println(rdd.toDebugString)

    println("****rdd1*********************")
    println(rdd1.toDebugString)

    println("*****rdd2********************")
    println(rdd2.toDebugString)

    println("*****rdd3********************")
    println(rdd3.toDebugString)



    rdd3.collect().foreach(println(_))

    sc.stop()
  }

 

这篇关于第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!