一、环境准备
/etc/hosts文件实现主机名与IP映射(如192.168.1.10 master、192.168.1.11 slave1),确保节点间可通过主机名互相通信。sudo yum install -y java-1.8.0-openjdk-devel或sudo apt install -y openjdk-11-jdk)和SSH服务(默认安装,可通过ssh localhost验证连通性)。二、安装Hadoop
wget命令下载后解压至指定目录(如/usr/local):wget https://downloads.apache.org/hadoop/core/hadoop-3.3.5/hadoop-3.3.5.tar.gz
sudo tar -zxvf hadoop-3.3.5.tar.gz -C /usr/local/
sudo chown -R hadoop:hadoop /usr/local/hadoop-3.3.5 # 修改属主为hadoop用户(可选但推荐)
```。
~/.bashrc(或/etc/profile)文件,添加以下内容以全局使用Hadoop命令:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际Java路径调整
export HADOOP_HOME=/usr/local/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存后执行source ~/.bashrc使配置生效。三、配置SSH免密登录
ssh-keygen -t rsa,按提示连续回车(不设置密码),生成~/.ssh/id_rsa(私钥)和~/.ssh/id_rsa.pub(公钥)。ssh-copy-id hadoop@slave1 # 替换为Slave节点的主机名/IP
ssh-copy-id hadoop@slave2
执行后输入Slave节点的hadoop用户密码,完成后测试免密登录(如ssh slave1应无需密码)。四、配置Hadoop核心文件
进入$HADOOP_HOME/etc/hadoop目录,修改以下关键配置文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value> <!-- 替换为Master节点的主机名 -->
</property>
</configuration>
```。
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.3.5/data/namenode</value> <!-- NameNode元数据存储路径 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.3.5/data/datanode</value> <!-- DataNode数据存储路径 -->
</property>
</configuration>
```。
mapred-site.xml,可通过cp mapred-site.xml.template mapred-site.xml生成):<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```。
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value> <!-- 替换为Master节点的主机名 -->
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```。
五、启动Hadoop集群
hdfs namenode -format
```。
start-dfs.sh命令启动NameNode和DataNode服务,启动后可通过jps命令查看NameNode、DataNode进程是否运行:$HADOOP_HOME/sbin/start-dfs.sh
jps # 应显示NameNode、DataNode进程
```。
start-yarn.sh命令启动ResourceManager和NodeManager服务,同样通过jps查看进程:$HADOOP_HOME/sbin/start-yarn.sh
jps # 应显示ResourceManager、NodeManager进程
```。
六、验证集群状态
hdfs dfsadmin -report命令查看DataNode列表、存储容量等信息,确认DataNode已成功连接。yarn node -list命令查看NodeManager列表,确认YARN集群正常运行。http://master:50070)和YARN Web界面(http://master:8088),查看集群状态和资源使用情况(部分版本可能需替换为http://master:9870,具体以实际版本为准)。