Linux Spark安装常见问题汇总与解答
一 环境准备与版本兼容
java -version 与 echo $JAVA_HOME 检查;若未安装,可安装 OpenJDK 11:sudo apt update && sudo apt install openjdk-11-jre。wget https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz,sudo tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt。export SPARK_HOME=/opt/spark-3.3.2-bin-hadoop3、export PATH=$SPARK_HOME/bin:$PATH,执行 source ~/.bashrc 生效。spark-shell 或 /opt/spark-3.3.2-bin-hadoop3/bin/spark-submit --version,能进入 REPL 或输出版本号即表明基础环境可用。二 配置与启动问题
~/.bashrc 或 ~/.zshrc 中是否正确设置 SPARK_HOME/PATH,并执行 source 使配置生效;确认当前会话为配置所在用户。spark-env.sh.template 创建)中设置 JAVA_HOME、SPARK_MASTER_HOST=localhost 等关键项,修改后 source 使其生效。spark-env.sh 中设置 SPARK_MASTER_WEBUI_PORT=8099(或其他未占用端口),或先排查占用:netstat -lntp | grep 8080。./start-master.sh 与 ./start-worker.sh spark://localhost:7077;集群模式需配置 slaves 并分发配置到各节点。三 运行与资源问题
spark.executor.memory 1g、spark.driver.memory 1g;同时结合数据规模与节点资源合理设置。yarn.nodemanager.vmem-check-enabled=false 并重启 Hadoop,防止因虚拟内存超限被 NodeManager 终止。四 Hadoop与Hive集成问题
hdfs dfsadmin -safemode leave。{SPARK_HOME}/lib/spark-assembly-*.jar 替换为 {SPARK_HOME}/jars/*.jar(Spark 3.x 起已不再提供 spark-assembly-*.jar,Hive 应使用 Spark 3 的官方集成方式)。./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.3.2.jar五 依赖管理与快速排查清单
--packages 自动拉取,例如spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.2。java -version 与 echo $JAVA_HOME 是否正确;echo $SPARK_HOME 与 spark-shell 是否可用;netstat -lntp | grep 8080 检查端口占用;免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。