1. 系统环境准备
apt-get update && apt-get upgrade确保系统为最新状态,减少潜在兼容性问题。sudo apt install openjdk-11-jdk安装,配置JAVA_HOME环境变量(如/usr/lib/jvm/java-11-openjdk-amd64)并添加至/etc/profile或/etc/environment,验证java -version显示正确版本。hadoop),使用useradd -m -s /bin/bash hadoop,并通过sudo usermod -aG sudo hadoop赋予sudo权限;设置Hadoop安装目录(如/opt/hadoop)及数据目录(如/opt/hadoop/data)的归属权(chown -R hadoop:hadoop /opt/hadoop),避免权限冲突。2. Hadoop安装与配置
wget获取并校验SHA-256校验和(避免文件损坏),解压至指定目录(如/opt/hadoop),通过sudo mv hadoop-3.3.6 /opt/hadoop重命名。/etc/profile或~/.bashrc,添加HADOOP_HOME=/opt/hadoop、PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,运行source /etc/profile使变量生效,确保全局可访问Hadoop命令。core-site.xml:设置fs.defaultFS为hdfs://namenode:9000(NameNode地址),配置Hadoop临时目录(hadoop.tmp.dir为/opt/hadoop/tmp)。hdfs-site.xml:设置副本数(dfs.replication为3,生产环境建议;测试环境可为1),指定NameNode数据目录(dfs.namenode.name.dir为/opt/hadoop/data/namenode)、DataNode数据目录(dfs.datanode.data.dir为/opt/hadoop/data/datanode)。mapred-site.xml:设置mapreduce.framework.name为yarn,指定MapReduce运行框架为YARN。yarn-site.xml:配置YARN资源管理,设置yarn.nodemanager.aux-services为mapreduce_shuffle、yarn.nodemanager.aux-services.mapreduce.shuffle.class为org.apache.hadoop.mapred.ShuffleHandler,启用MapReduce Shuffle服务。3. 网络与节点通信
ssh-keygen -t rsa -P ""),将公钥(id_rsa.pub)复制到所有节点(包括自身)的authorized_keys文件(cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys),测试ssh localhost及ssh datanode1是否无需密码,确保节点间无缝通信。/etc/hosts文件,添加集群节点IP与主机名映射(如192.168.1.1 namenode、192.168.1.2 datanode1),避免DNS解析延迟或失败。4. 集群启动与验证
hdfs namenode -format,清除旧元数据(仅首次启动需要),创建新的HDFS命名空间。start-dfs.sh),启动YARN(start-yarn.sh);使用jps命令验证进程(NameNode、DataNode、ResourceManager、NodeManager是否运行),或通过Web界面(http://namenode:9870查看HDFS状态,http://resourcemanager:8088查看YARN状态)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input/test.txt /output),检查输出目录(/output)是否生成结果文件,确认集群功能正常。5. 性能优化与安全
HADOOP_HEAPSIZE设置为4GB+,根据节点内存调整),优化HDFS块大小(dfs.blocksize设为128MB或256MB,适合大数据处理),启用数据本地性(确保任务在数据所在节点运行,减少网络传输)。kinit获取票据),配置防火墙(ufw或iptables)限制Hadoop端口(如9000、50070、8088)访问,仅允许可信IP接入;定期更新Hadoop版本及系统补丁,修复安全漏洞。