Java教程

06 Spark SQL 及其DataFrame的基本操作

本文主要是介绍06 Spark SQL 及其DataFrame的基本操作,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1.Spark SQL出现的 原因是什么?

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。
sparkSQL提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。

2.用spark.read 创建DataFrame

3.观察从不同类型文件创建DataFrame有什么异同?

 

 txt文件:创建的DataFrame数据没有结构

 

json文件:创建的DataFrame数据有结构

 

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同?

 

 

 

 

 

 

这篇关于06 Spark SQL 及其DataFrame的基本操作的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!