5.RDD操作综合实例 - 为之网

Java教程

5.RDD操作综合实例

本文主要是介绍5.RDD操作综合实例，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、词频统计

A. 分步骤实现

　　1.准备文件

　　　　1.下载小说或长篇新闻稿

　　　　2.上传到hdfs上

　　2.读文件创建RDD

　　3.分词

　　4.排除大小写lower()，map()

　　标点符号re.split(pattern,str)，flatMap(),

　　停用词,可网盘下载stopwords.txt,filter()

长度小于2的词filter()

　　5.统计词频

　　6.按词频排序

　　7.输出到文件

　　8.查看结果

B. 一句话实现：文件入文件出

C. 和作业2的“二、Python编程练习：英文文本的词频统计 ”进行比较，理解并用自己话表达Spark编程的特点。

1.首先第一点就是速度快，spark使用DAG 调度器、查询优化器和物理执行引擎，能够在批处理和流数据获得很高的性能。

2. 第二就是使用简单————Spark的易用性主要体现在两个方面。一方面，我们可以用较多的编程语言来写我们的应用程序

3.第三就是通用性高，我们可以很容易地在同一个应用中将一些常用的库结合起来使用，以满足我们的实际需求。

4.第四就是它可以在很多环境上都可以运行，它可以运行在Hadoop,Mesos,Kubernetes,standalone,或者云服务器上，并且它有多种多种访问源数据的方式。

二、求Top值

网盘下载payment.txt文件，通过RDD操作实现选出最大支付额的用户。

　　1.丢弃不合规范的行：

　　　　空行

　　　　少数据项

　　　　缺失数据

　　2.按支付金额排序

　　3.取出Top3

资源链接：https://pan.baidu.com/s/1Hc9SxMLcsP9HVQLZ7eSVYA 提取码：tefr

这篇关于5.RDD操作综合实例的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯