hadoop&spark安装(下)-创新互联
上一遍文章中其实最主要的就是JAVA环境变量以及hadoop环境变量的设置,这两个设置好了的话,运行hadoop基本上不会出问题。
为米易等地区用户提供了全套网页设计制作服务,及米易网站建设行业解决方案。主营业务为成都网站设计、网站建设、外贸网站建设、米易网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!在hadoop的基础上安装spark好简单。
安装Spark之前需要先安装Hadoop集群,因为之前已经安装了hadoop,所以我直接在之前的hadoop集群上安装spark。
硬件环境:
hddcluster1 10.0.0.197 redhat7
hddcluster2 10.0.0.228 centos7 这台作为master
hddcluster3 10.0.0.202 redhat7
hddcluster4 10.0.0.181 centos7
软件环境:
scala-2.11.7
spark-2.0.2-bin-hadoop2.7.tgz
#所有操作用hadoop
基本流程:
1、master解压scala-2.11.7和spark-2.0.2-bin-hadoop2.7.tgz到相应的目录
2、配置scala和spark环境变量
3、修改配置文件
4、拷贝scala和spark到各个节点,授权
5、启动spark集群
#hadoop用户下操作,下载scala,安装 wget http://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz tar -zxvf scala-2.11.7.tgz mv scala-2.11.7 /usr/local/scala sudo mv scala-2.11.7 /usr/local/scala vim .bashrc #添加 export SCALA_HOME=/usr/local/scala export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin source .bashrc [hadoop@hddcluster2 ~]$ scala -version Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL
#在官网下载spark-2.0.2-bin-hadoop2.7.tgz tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz mv spark-2.0.2-bin-hadoop2.7 spark sudo mv spark /usr/local/ vim .bashrc #添加 export SPARK_HOME=/usr/local/spark export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME
#修改spark配置文件 cd /usr/local/spark/conf cp spark-env.sh.template spark-env.sh vi spark-env.sh #添加下面内容 ###jdk dir export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.111-2.b15.el7_3.x86_64 ###scala dir export SCALA_HOME=/usr/local/scala ###the ip of master node of spark export SPARK_MASTER_IP=10.0.0.228 ###the max memory size of worker export SPARK_WORKER_MEMORY=8G ###hadoop configuration file dir export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ #修改slave cp slaves.template slaves vi slaves #把localhost改为下面内容 hddcluster1 hddcluster2 hddcluster3 hddcluster4
#把/usr/local/spark 和 /usr/local/scala打包,然后复制到slave节点、 cd /usr/local tar -zcf ~/master.spark.tar.gz ./spark tar -zcf ~/master.scala.tar.gz ./scala scp master.spark.tar.gz hddcluster1:~ scp master.scala.tar.gz hddcluster1:~ #登录各个节点进行解压到/usr/local tar -zxf master.spark.tar.gz -C /usr/local/ tar -zxf master.scala.tar.gz -C /usr/local/ chown -R hadoop:hadoop /usr/local/spark chown -R hadoop:hadoop /usr/local/scala 再配置.bashrc环境变量和master的一样。 加上hadoop上一篇的.bashrc内容是这样子: #scala export SCALA_HOME=/usr/local/scala #spark export SPARK_HOME=/usr/local/spark #java and hadoop export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.111-2.b15.el7_3.x86_64 export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME export HADOOP_PREFIX=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib:$HADOOP_PREFIX/lib/native" 到此Spark集群搭建完毕
.启动Spark集群: 启动Spark之前需要先将hadoop的dfs以及yarn启动。 /usr/local/spark/sbin/start-all.sh 启动所有服务之后,在命令行输入jps: [hadoop@hddcluster2 ~]$ jps 29601 ResourceManager 32098 SparkSubmit 29188 DataNode 29364 SecondaryNameNode 29062 NameNode 29915 NodeManager 30251 Master 30380 Worker 30062 JobHistoryServer 18767 Jps 比hadoop集群启动时多了Master和worker /usr/local/spark/bin/spark-shell.sh 出现scala>时说明成功。 在浏览器中输入10.0.0.228:8080时,会看到如下图,有4个Worker
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
本文标题:hadoop&spark安装(下)-创新互联
本文来源:http://pcwzsj.com/article/cogdsh.html