val sparkSession = SparkSession.builder. master("local") .appName("spark session example") .enableHiveSupport() .getOrCreate()
DataFrame 是Spark SQL提供的一种特殊的RDD
dataframe 能够更方便的操作数据集,而且因为其底层是通过 spark sql 的 Catalyst优化器生成优化后的执行代码,所以其执行速度会更快。总结下来就是,使用 spark dataframe 来构建 spark app,能:
write less : 写更少的代码
do more : 做更多的事情
faster : 以更快的速度
dataframe = spark.read.format(“csv”).option(“header”,“true”).csv('train.csv’)