RDD编程初级实践

本文主要是介绍RDD编程初级实践，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1．pyspark交互式编程

本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据，在pyspark中通过编程来计算以下内容：

该系总共有多少学生；

1.创建RDD

2.拆分每行记录，取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

该系共开设了多少门课程；

1.创建RDD

2.拆分每行记录，取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

Tom同学的总成绩平均分是多少；

1.提取Tom的每门成绩，并转化为int类型

2.统计Tom的课程数

3.统计Tom的总成绩

求每名同学的选修的课程门数；

1.创建RDD

2.求出学生每门课程对应（学生姓名，1），学生有n门课程，则有n个学生

3.按学生姓名为key，获取每个学生的课程总数

4.按照学生姓名分组，统计他们选课程数。

该系DataBase课程共有多少人选修；

1.创建RDD

2.选定课程DataBase

3.输出结果

各门课程的平均分是多少；

1.创建RDD

2.为每门课程的分数后面新增一列，表示一个学生选择了该门课程

3.按课程名称统计总分数和选课人数

4.求平均分

使用累加器计算共有多少人选了DataBase这门课。

1.创建RDD

2.选定课程DataBase

3.使用累加器计算

2.编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）下面是输入文件和输出文件的一个样例，供参考。

输入文件A的样例如下：

20200101 x

20200102 y

20200103 x

20200104 y

20200105 z

20200106 z

输入文件B的样例如下：

20200101 y

20200102 y

20200103 x

20200104 z

20200105 y

根据输入的文件A和B合并得到的输出文件C的样例如下：

20200101 x

20200101 y

20200102 y

20200103 x

20200104 y

20200104 z

20200105 y

20200105 z

20200106 z

实验步骤如下：

当前目录为/usr/local/spark/sparksqldata/，在当前目录下新建一个C.py文件
向C.py文件写入内容如下：
在目录为/usr/local/spark/sparksqldata/下执行下面命令执行程序.(注意运行前缀为python8,若使用python3，可能会运行显示不成功。)
在目录/usr/local/spark/sparksqldata/result下即可得到结果文件part-00000。
结果

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），下面是输入文件和输出文件的一个样例，供参考。

Algorithm成绩：

小明 92

小红 87

小新 82

小丽 90

Database成绩：

小明 95

小红 81

小新 89

小丽 85

Python成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

实验步骤如下：

当前目录为/usr/local/spark/mycode/avgscore，在当前目录下新建一个avgscore.py,并将数据文件“Algorithm.txt、Database.txt、Python.txt”放入该文件夹下。
向avgscore.py文件写入内容如下：
在目录为/usr/local/spark/mycode/avgscore下执行如图命令执行程序.(注意运行前缀为python3.8,若使用python3，可能会运行显示不成功。)
4.结果。