/* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("distinctTest") Job:一个Action算子就会生成一个Job 每触发一个Action算子,就会提交一个job Stage:Stage等于宽依赖(ShuffleDependency)的个数加1; 将每个job,根据是否Shuffle 拆分成不同的Stage Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。 note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。 * * */
object TaskTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest") val sc: SparkContext = new SparkContext(sparkconf) private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt") private val rdd1: RDD[String] = rdd.flatMap(_.split(" ")) private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e) private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size)) println("****rdd*********************") println(rdd.toDebugString) println("****rdd1*********************") println(rdd1.toDebugString) println("*****rdd2********************") println(rdd2.toDebugString) println("*****rdd3********************") println(rdd3.toDebugString) rdd3.collect().foreach(println(_)) sc.stop() }