#spark on yarn 和SparkjobHistory配置和常见erro
感谢开源和各位前辈对知识的无私奉献
希望我的这篇文章,能对您有所帮助
软件版本信息:
Vmware16,Centos7,hadoop2.7.2,jdk1.8,scala-2.11.8,spark2.0.1
如果有需要的软件在下面链接里,很抱歉,centos的镜像因为太大没有办法上传到网盘里,需要劳烦您自己找一下资源
物理机配置:
10代i5,24G内存,1000g固态
虚拟机配置
5G内存,50G硬盘
Vmware:
链接:https://pan.baidu.com/s/17RlsO9ZGg1zQCHAFjmSFTg
提取码:w4a4
jdk,hadoop,spark,scala,我都压缩过后放到了一个文zip后缀的压缩文件
里
链接:https://pan.baidu.com/s/1w7TRWfBZ0GF3JodwHLwSlw
提取码:r9fn
我的建议是先在windows下解压缩,然后通过xftp或者winscp这一类的工具上传到您的虚拟机上 。好的话不多说,让我们开始
环境准备 您需要一个安装了scala,jdk的hadoop集群
我的建议是,将scala和jdk都安装到集群的虚拟机上,hadoop安装成完全分布式,如果不会的考虑可以去找一下对应的文章 。
首先解压缩文件夹
注意:!!!一定要写对您的配置文件,单词不要写错,不要写错,不要写错,主在不在乎我不知道,但这对您来说真的会很重要
tar -zxvf spark-2.0.1-bin-hadoop2.7.tgz -C /您希望安装到的路径# 我的是路径/opt/module# 随后我们给文件取一个好记得名字mv spark-2.0.1-bin-hadoop2.7 /opt/module/spark-yarn 接下来我们配置对应的环境变量
sudo vim /etc/profile.d/my_env.sh或者sudo vim /etc/profile 内容参考这一部分,其中HADOOP_CONF_DIR您可以试一下不写,至于报不报错,由您的电脑说了算
随后source一下
如果是第一种方式编写的环境变量
source /etc/profile/即可 第二种方式:
source /etc/profile.d/my_env.sh 两种方式配置环境变量的区别是
通过第一种是所有在加载环境时您配置的环境变量对所有用户均有效
通过第二种方式配置的环境变量仅对当前用户有效
spark on yarn 请您切换到您安装的spark的conf目录下下修改对应文件
cd $SPARK_HOME/conf# 给文件改个名mv ./spark-env.sh.example ./spark-env.sh# 修改文件vim ./spark-env.sh# 按下i输入以下内容,等号后面的内容请分别切换为您的jdk安装目录export JAVA_HOME=/opt/module/jdk1.8.0_144# 这里的等号后面的内容请切换为您的hadoop安装目录下的etc下的hadoop目录YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop 接着我们做spark on yarn的最后一项配置
改一下yarn的配置文件,因为我们是虚拟机,内存可能不大够,执行job时极有可能erro
我们可以通过修改yarn的配置文件来解决这个问题:目前有两种改法我推荐的是第二种
第一种方式:vim $HADOOP_HOME/etc/hadoop/yarn-site.xml
yarn.nodemanager.pmem-check-enabled 第二种方式:vim $HAOOP_HOME/etc/hadoop/yarn-site.xml
yarn.scheduler.maximum-allocation-mb 到这里,最基本的spark on yarn配置就已经完成了
我们做一个小测试
执行一个job看看效果,就算一下π的value如何?
./bin/spark-submit \ # 官方给的脚本路径,不能省略,省略100%报错--class org.apache.spark.examples.SparkPi \ # 类的路径,您敢省略我就敢erro--master yarn \ # 指定程序运行在yarn上--driver-memory 600m \ # 指定Driver端的内存为600MB--executor-memory 600m \# 指定一个executor的内存为600MB--deploy-mode cluster \$SPARK_HOME/examples/jars/spark-examples_2.11-2.0.1.jar \# jar包路径10
出现SUCESSED说明job执行成功,注意:这里是不会直接输出计算出π的值的,如果出现您的情人error1号
stack trace: 。。。。
或者2号
java.io.IOException: Failed to send RPC 。。。。。
这两种类型的错误,有极大可能是您的内存方面的问题,按照上述的yarn配置的第二种方式修改一下有极大可能能解决 。
配置spark on yarn 模式的history 首先您需要配置一下hadoop的jobhistory(日志聚集功能)并开启对应服务
vim $HADOOP/etc/hadoop/yarn-site.xmlyarn.log-aggregation-enable 接下来我们修改一部分配置文件,注意:你的hdfs下/spark目录一定要存在
# 不管存不存在我们都创建一下试试呗,反正不会报一堆errorhadoop fs -mkdir /sparkvim $SPARK_HOME/conf/spark-env.sh# 输入如下内容SPARK_HISTORY_DIR="-Dspark.history.ui=18080-Dspark.history.fs.logDirector=hdfs://你的NameNode所在主机名:9000/spark-Dspark.history.retainedApplication=30" 【spark on yarn 和SparkjobHistory配置和常见erro】然后我们重命名一下文件
mv $SPRK_HOME/conf/spark-default.conf.example $SPARK_HOME/conf/spark-default.confvim $SPARK_HOME/conf/spark-default.conf# 修改掉文件中原本注释的,如果没有的就添加# 如果我想偷懒咋办?直接输呗# 注意:!!!,如果您不想和一堆亲爱的erro面对面的话,请您一定要把我的# hadoop112:9000改成您的NameNodes所在主机名和对应的core-site.xml里写# 的那个端口号spark.eventLog.enabledtruespark.eventLog.dirhdfs://hadoop112:9000/sparkspark.yarn.historyServer.address=hadoop112:18080spark.history.ui.port=18080 最后保存退出
现在基本就完成了
让我们一起在$HADOOP_HOME中分别重启hdfs,yarn,jobhistory, 在spark中开启,history,如果这里没有遇见程序员的情人erro,说明您基本成功了
相应命令
# NameNode节点开启hdfs$HADOOP_HOME/sbin/start-dfs.sh# yarn节点 开启yarn$HADOOP_HOME/sbib/start-yarn.sh# NameNode 节点 开启日志聚集$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver$SPARK_HOME/sbin/start-history-server.sh 最后,我们再跑一个一把spark作为client的job,如果没遇到您的情人error就欧可以看到您亲爱的不是3.1415926的π了
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \--driver-memory 600m \ --executor-memory 600m \ --deploy-mode client $SPARK_HOME/examples/jars/spark-examples_2.11-2.0.1.jar 10
最后,创作不易,希望各位能提供一些建议,供在下参考写出更好更,适合各位的博文 。有问题也欢迎留言,看到了会如果是我能力范围内的问题,会回复的 。
也希望各位能驯服erro这个凶猛的对象 。
- 春季老年人吃什么养肝?土豆、米饭换着吃
- 三八妇女节节日祝福分享 三八妇女节节日语录
- 老人谨慎!选好你的“第三只脚”
- 校方进行了深刻的反思 青岛一大学生坠亡校方整改校规
- 脸皮厚的人长寿!有这特征的老人最长寿
- 长寿秘诀:记住这10大妙招 100%增寿
- 春季老年人心血管病高发 3条保命要诀
- 眼睛花不花要看四十八 老年人怎样延缓老花眼
- 香槟然能防治老年痴呆症? 一天三杯它人到90不痴呆
- 老人手抖的原因 为什么老人手会抖
