Spark:快速通用的大规模数据处理引擎,特点是速度快,易使用。
1、安装配置好jdk,如果不会安装可以跳转到脚本安装jdk保姆级教程
2、搭建配置好Hadoop,如果不会配置安装可以跳转到Hadoop配置保姆级教程
3、安装好Scala,如果不会安装可以跳转到Linux下安装配置Scala保姆级教程
1、通过xftp将spark安装包上传到Linux中,版本是spark-2.4.5-bin-hadoop2.6.tgz
2、解压缩tar -zxf spark-2.4.5-bin-hadoop2.6.tgz -C ../soft/
3、为了方便以后使用,将解压缩后的文件夹修改名字mv spark-2.4.5-bin-hadoop2.6/ spark245
4、配置环境变量vim /etc/profile
#spark export SPARK_HOME=/opt/soft/spark245 export PATH=$PATH:$SPARK_HOME/bin
5、首先先做个备份 cp spark-env.sh.template spark-env.sh
然后修改配置文件,在最后添加如下代码
export JAVA_HOME=/opt/soft/jdk180 export SCALA_HOME=/opt/soft/scala211 export SPARK_HOME=/opt/soft/spark245 export HADOOP_INSTALL=/opt/soft/hadoop260 export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop export SPARK_MASTER_IP=nnode1 export SPARK_DRIVER_MEMORY=2G export SPARK_EXECUTOR_MEMORY=2G export SPARK_LOCAL_DIRS=/opt/soft/spark245
6、因为是单机版,不需要去配置slaves,但是也可以配置一下,cp slaves.template slaves
先做个备份,然后vim slaves
,将localhost修改为自己的主机名
7、启动/关闭spark,进入到sbin目录下,看到有很多的命令,spark也有start-all.sh和stop-all.sh命令,所以直接./用就行了。
8、打开浏览器,输入主机名:8080就可以看到spark的可视化页面了
至此,spark单机版安装配置完成了~