一、Hadoop在Linux上的扩展流程
扩展Hadoop集群(包括水平扩展新增物理/虚拟节点、垂直扩展提升单节点资源)需遵循以下标准化步骤:
apt install openjdk-11-jdk或yum install java-11-openjdk)和SSH服务(apt install openssh-server),并配置主节点到新节点的密码免登录(ssh-keygen -t rsa生成密钥,ssh-copy-id newnode-ip复制公钥)。/etc/hostname设置唯一主机名(如datanode3),并在/etc/hosts中添加集群所有节点的IP与主机名映射(如192.168.1.10 master、192.168.1.11 datanode1)。~/.bashrc或/etc/profile,添加以下内容(根据实际路径调整):export HADOOP_HOME=/opt/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行source ~/.bashrc使配置生效。$HADOOP_HOME/etc/hadoop目录下的core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml复制到新节点相同目录,确保配置一致性。hadoop-daemon.sh start datanode
yarn-daemon.sh start nodemanager
或通过集群管理脚本统一启动:$HADOOP_HOME/sbin/start-dfs.sh、$HADOOP_HOME/sbin/start-yarn.sh。hdfs dfsadmin -report,查看“Live DataNodes”列表是否包含新节点;或通过HDFS Web UI(默认http://master:9870)确认节点状态为“Live”。hdfs balancer命令触发数据再平衡,使数据均匀分布在集群中(避免部分节点过载)。http://master:8088)监控资源使用率,调整YARN队列配置(如yarn-site.xml中的yarn.scheduler.capacity.maximum-am-resource-percent)以优化任务调度。二、Hadoop在Linux上的升级流程
升级Hadoop版本需谨慎操作,避免数据丢失或服务中断,建议在测试环境验证后再应用于生产:
/user/hive/warehouse、/tmp等目录,可通过hdfs dfs -cp /source/path /backup/path复制到其他存储);备份$HADOOP_HOME/etc/hadoop下的所有配置文件。https://hadoop.apache.org/releases.html)查看目标版本的Release Notes,重点关注不兼容变更(如配置属性调整、API废弃)和升级注意事项(如HDFS文件格式要求)。$HADOOP_HOME/sbin/stop-yarn.sh
$HADOOP_HOME/sbin/stop-dfs.sh
使用jps命令确认所有守护进程(NameNode、DataNode、ResourceManager、NodeManager等)已停止。hadoop-3.3.6.tar.gz),解压到指定目录(如/opt):wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz -C /opt
mv /opt/hadoop-3.3.6 /opt/hadoop-new # 重命名为新版本目录
~/.bashrc或/etc/profile中的HADOOP_HOME指向新版本目录,更新PATH变量:export HADOOP_HOME=/opt/hadoop-new
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
$HADOOP_HOME/etc/hadoop下的配置文件复制到新版本目录:cp -r /opt/hadoop-old/etc/hadoop/* /opt/hadoop-new/etc/hadoop/
protobuf3,需调整core-site.xml中的hadoop.rpc.protection属性;YARN的capacity-scheduler.xml可能新增队列配置)。$HADOOP_HOME/sbin/start-dfs.sh
hdfs dfsadmin -upgrade
此命令会将HDFS元数据(如NameNode的fsimage、edits文件)升级到新版本格式。hadoop dfsadmin -upgradeProgress status命令查看升级进度(如“Upgrading”表示正在升级,“Upgraded”表示已完成)。jps命令确认所有守护进程(NameNode、DataNode、ResourceManager等)已启动;通过HDFS Web UI(http://master:9870)查看集群状态(如“Live Nodes”“Storage Capacity”)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar pi 10 100),验证任务是否能正常执行并输出结果。/opt/hadoop-old),释放磁盘空间。$HADOOP_HOME/sbin/stop-dfs.sh、$HADOOP_HOME/sbin/stop-yarn.sh。start-dfs.sh、start-yarn.sh脚本启动集群。