实验前提:
a. 安装好了windows本地的scala
b. 安装好了IDEA的scala插件
c. 安装好了JDK
a. 新建一个Scala项目,先选择Java,然后在右边选择Scala,配置好解压之后的scala包,其他的默认
b. 如果有提示,可以随便选一个
a. 右击src,建一个包,比如:com.shaonaiyi
b. 然后编辑项目结构,加入我们的Scala SDK
(找到我们win本地的Scala主目录即可):
导入之后点击OK
c. 导入我们的Spark依赖jar包(选择Spark主目录下的jars目录,然后一直OK
):
a. 右击包名:com.shaonaiyi
,创建Scala Class
,然后选择Kind为Object
:
a. 修改Wordcount类为:
package com.shaonaiyi import org.apache.spark.SparkContext object Wordcount { def main(args: Array[String]): Unit = { var sc = new SparkContext("local[2]","Wordcount") var file = sc.textFile("spark-wc.iml") var wordRDD = file.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2) wordRDD.foreach(println(_)) } }
a. 执行代码可以看到统计结果
a. 选择一种类型的包
b. 设置我们的Wordcount类里面的main方法
c. 排除我们服务器上有的包,即服务器已经有的jar包就不用也把他们打包上去了。
然后一直ok
,执行完,稍等一会可以看到src同级目录下多了个out文件夹。
a. 打包
b. 执行完可以看到out目录有jar包了
a. 使用XFtp等工具上传jar包和项目下的即可(此处直接上传到~)spark-wc.jar
spark-wc.iml
到~
路径下
b. 启动spark$SPARK_HOME/sbin/start-all.sh
c. 执行(在jar包当前路径下):spark-submit spark-wc.jar
注意要配置好spark的环境变量,才可以在任意路径下执行spark-submit操作,此处不再累赘。
0x04 统计结果展示统计结果:
作者简介:邵奈一
大学大数据讲师、大学市场洞察者、专栏编辑
公众号、微博、CSDN:邵奈一
本系列课均为本人:邵奈一原创,如转载请标明出处
福利:
邵奈一的技术博客导航