05 RDD编程

本文主要是介绍05 RDD编程，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、词频统计：

1.读文本文件生成RDD lines

lines = sc.textFile('file:///home/hadoop/word.txt')

2.将一行一行的文本分割成单词 words flatmap(

words=lines.flatMap(lambda line:line.split())
words.collect()

3.全部转换为小写 lower()

1 words=lines.flatMap(lambda line:line.lower().split()).collect()
2 words=lines.flatMap(lambda line:line.lower().split())
3 words.collect()

4.去掉长度小于3的单词 filter()

words.filter(lambda word : len(word)>3).collect()

5.去掉停用词

1 # 准备文本
2 lines = sc.textFile('file:///home/hadoop/stopwords.txt')
3 stop = lines.flatMap(lambda line : line.split()).collect()
4 # 去除停用词
5 words=lines.flatMap(lambda line:line.lower().split()).filter(lambda word : word not in stop)
6 words.collect()

6.转换成键值对 map()

words.map(lambda word : (word,1))

7.统计词频 reduceByKey()

words.map(lambda word : (word,1)).reduceByKey(lambda a,b:a+b).foreach(print)

8.按字母顺序排序 sortBy(f)

words.map(lambda word : (word,1)).reduceByKey(lambda a,b:a+b).sortBy(lambda word:word[0]).collect()

9.按词频排序 sortByKey()

words.map(lambda word : (word,1)).reduceByKey(lambda a,b:a+b).sortByKey().collect()

二、学生课程分数案例

共有多少学生？map(), distinct(), count()
开设了多少门课程？
每个学生选修了多少门课？map(), countByKey()
每门课程有多少个学生选？map(), countByValue()
Tom选修了几门课？每门课多少分？filter(), map() RDD
Tom选修了几门课？每门课多少分？map(),lookup() list
Tom的成绩按分数大小排序。filter(), map(), sortBy()
Tom的平均分。map(),lookup(),mean()

这篇关于05 RDD编程的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

05 RDD编程

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯