一、 RDD创建
一、
1.从本地文件系统中加载数据创建RDD:
2.启动HDFS:
上传文件并查看:
停止HDFS:
3.通过并行集合(列表)创建RDD
输入列表、字符串、生成数组
二、 RDD操作
转换操作
二、
1.filter:
传入lambda匿名函数:
显示定义函数:
2.map:
显示定义函数:
lambda函数
a.字符串分词
b.数字加100:
c.客串加固定前缀:
3.flatMap
分词:
单词映射成键值对:
4.reduceByKey():
统计词频,累加:
乘法规则:
5.groupByKey():
a.单词分组
b.查看分组内容
c.分组之后做累加map
6.sortByKey()
词频统计按单词排序
7.sortBy()
词频统计按词频排序
行动操作
1.
foreach(print)
foreach(lambda a:print(a.upper()))
2.collect()
3.count()
4.take(n)
5.reduce()