Java教程

【Spark】【RDD】从HDFS创建RDD

本文主要是介绍【Spark】【RDD】从HDFS创建RDD,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1.在HDFS根目录下创建目录(姓名学号)

hdfs dfs -mkdir /zwj25
hdfs dfs -ls /

访问 http://[IP]:50070

image-20211025002555544

image-20211025002652308

image-20211025002943200

image-20211025002957999

2.上传本地文件到HDFS

hdfs dfs -put file.txt /zwj25

image-20211025003059248

3.进入spark4-shell

var hdfsrdd=sc.textFile("/zwj25/file.txt")
hdfsrdd.collect
hdfsrdd.partitions
hdfsrdd.partitions.size

sc.defaultMinPartitions=min(sc.defaultParallelism,2)

rdd分区数=max(hdfs文件的block数目,sc.defaultMinPartitions)

image-20211025003157234

image-20211025003305459

这篇关于【Spark】【RDD】从HDFS创建RDD的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!