轻松搞定Linux Spark的安装配置

发布时间：2025-12-05 09:27:39 来源：亿速云阅读：91 作者：小樊栏目：系统运维

在Linux系统上安装和配置Apache Spark可以分为几个步骤。以下是一个基本的指南，帮助你轻松搞定Spark的安装和配置。

首先，从Apache Spark官网下载最新版本的Spark。

wget https://www.apache.org/dyn/closer.cgi/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.2.tgz

下载完成后，解压文件到你选择的目录。

tar -xzvf spark-3.3.0-bin-hadoop3.2.tgz -C /opt

编辑你的~/.bashrc或~/.zshrc文件，添加以下内容：

export SPARK_HOME=/opt/spark-3.3.0-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

然后，使配置生效：

source ~/.bashrc  # 或者 source ~/.zshrc

编辑$SPARK_HOME/conf/spark-env.sh文件，添加以下内容（如果需要）：

export SPARK_MASTER_HOST=localhost
export SPARK_LOCAL_IP=localhost

如果你打算使用集群模式，需要配置更多的参数，例如SPARK_MASTER_URL和SPARK_WORKER_CORES等。

你可以通过以下命令启动Spark Master和Worker：

$SPARK_HOME/sbin/start-master.sh
$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077

打开一个新的终端，运行以下命令来验证Spark是否正常工作：

spark-shell

如果一切正常，你应该会看到一个Scala REPL界面。

假设你有一个集群，包含一个Master节点和多个Worker节点。你需要在每个节点上进行相应的配置。

Master节点：

$SPARK_HOME/sbin/start-master.sh

Worker节点：

$SPARK_HOME/sbin/start-worker.sh spark://master-node:7077

如果你打算使用HDFS作为存储，确保Hadoop已经正确配置，并在spark-defaults.conf中添加以下配置：

spark.executor.extraJavaOptions -Ddfs.replication=1
spark.hadoop.fs.defaultFS hdfs://namenode:8020

通过以上步骤，你应该能够在Linux系统上成功安装和配置Apache Spark。根据你的具体需求，可能需要进行更多的配置和调整。希望这个指南对你有所帮助！

向AI问一下细节

猜你喜欢