欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > Spark,集群搭建之Yarn模式

Spark,集群搭建之Yarn模式

2025/5/16 3:01:26 来源:https://blog.csdn.net/2401_87076425/article/details/147892361  浏览:    关键词:Spark,集群搭建之Yarn模式

以下是Spark基于Yarn模式的集群搭建关键步骤(需先部署Hadoop Yarn集群):

 

一、环境准备

 

1. 确认Hadoop已运行

 

- 确保HDFS、Yarn ResourceManager和NodeManager正常启动。

 

2. 安装Java

 

- 所有节点安装JDK 8+,配置 JAVA_HOME 环境变量。

 

3. 关闭防火墙

bash

systemctl stop firewalld && systemctl disable firewalld

 

 

二、下载与配置Spark

 

1. 下载Spark包

 

- 官网下载对应Hadoop版本的Spark(如 spark-3.5.0-bin-hadoop3 ),上传至主节点。

 

2. 解压与配置

bash

tar -zxvf spark-3.5.0-bin-hadoop3.tgz -C /opt  

cd /opt/spark-3.5.0-bin-hadoop3/conf  

 

 

3. 修改配置文件

 

-  spark-env.sh (新增或修改):

bash

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk # 实际JDK路径  

export HADOOP_CONF_DIR=/etc/hadoop/conf # Hadoop配置目录  

 

 

-  spark-defaults.conf (若无则新建):

bash

spark.master yarn  

spark.eventLog.enabled true  

spark.eventLog.dir hdfs://nameservice1/spark-logs # HDFS日志路径(需提前创建)  

 

 

三、分发Spark到所有节点

 

bash

scp -r /opt/spark-3.5.0-bin-hadoop3 slave1:/opt  

scp -r /opt/spark-3.5.0-bin-hadoop3 slave2:/opt  

 

 

- 确保所有节点 HADOOP_CONF_DIR 路径正确(与Hadoop配置一致)。

 

四、验证与提交任务

 

1. 测试HDFS连通性

 

- 在任意节点执行:

bash

hdfs dfs -mkdir -p /spark-logs # 创建日志目录(需与配置一致)  

hdfs dfs -chmod -R 777 /spark-logs  

 

 

2. 提交Spark任务到Yarn

bash

bin/spark-submit \  

  --class org.apache.spark.examples.SparkPi \  

  --master yarn \  

  --deploy-mode cluster \ # 可选client模式(默认)  

  --executor-memory 2g \  

  --num-executors 3 \  

  ./examples/jars/spark-examples_*.jar 100  

 

 

3. 查看任务状态

 

- Yarn Web界面: http://resourcemanager_ip:8088/cluster ,查看应用运行情况。

 

- Spark历史服务器(需配置 spark.history.fs.logDirectory ): http://master_ip:18080 。

 

注意事项

 

1. 资源分配

 

- 通过 --executor-memory 和 --executor-cores 控制单个Executor资源。

 

- Yarn全局资源需在 yarn-site.xml 中配置(如 yarn.nodemanager.resource.memory-mb )。

 

2. 日志存储

 

- 确保HDFS路径可写,否则任务可能失败。

 

3. 版本兼容性

 

- Spark与Hadoop版本需兼容(如Spark 3.5.x对应Hadoop 3.2+)。

 

4. 高可用性

 

- 若Yarn启用HA,需在 spark-defaults.conf 中配置 spark.yarn.resourceManager.address 为HA地址。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词