PySpark 查询数据库信息

本文主要是介绍PySpark 查询数据库信息，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

前言

最近学的东西有些杂乱无章，用到什么就要学习什么，简单记录一下所学的东西，方便后面的巩固学习。
pyspark简单查询数据库的一些信息

程序

导入环境设置

from pyspark.sql import SparkSession, Row
from pyspark import SQLContext
from pyspark.sql.functions import udf, col, explode, collect_set, get_json_object, concat_ws,  split
from pyspark.sql.types import StringType, IntegerType, StructType, StructField, ArrayType, MapType

# from offline_verification_func import *
spark = SparkSession \
        .builder.master("local[50]") \
        .config("spark.executor.memory", "10g")\
        .config("spark.driver.memory", "20g")\
        .config("spark.driver.maxResultSize","4g")\
        .appName("test") \
        .enableHiveSupport() \
        .getOrCreate()

查询信息1

spark.sql(""" 
select id, name, age
from students
where  age > 14
order by age
""").show()

将查询信息转为Pandas格式

df = spark.sql(""" 
select id, name, age
from students
where  age > 14
order by age
""")
# df.repartition(1).write.mode("overwrite").format('csv').save("dfr.csv")


df.toPanads().to_csv("df.csv")

总结

spark.sql()中用到的是select from where group by having order by limit 等通用的查询和筛选的条件，这个是通用的。
pyspark 查询到的信息可以保存，格式是DataFrame和 python DataFrame 是不一样的。这个要区别一下
两种对应不同的保存方式。

这篇关于PySpark 查询数据库信息的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

PySpark 查询数据库信息

前言

程序

总结

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯