Ubuntu与Hadoop网络配置有何要求
小樊
42
2025-11-29 02:50:39
Ubuntu 与 Hadoop 网络配置要点
一、基础网络与主机标识
- 建议使用 Ubuntu 20.04/22.04 LTS,节点数量至少 3 台(1 主 + 2 从),便于 HDFS 副本与 YARN 调度。
- 规划并固定 私有内网网段(如 192.168.x.0/24),为每台机器设置 静态 IP,避免 DHCP 导致地址漂移。
- 统一 主机名与 /etc/hosts:所有节点写入彼此映射,例如:
192.168.5.11 master
192.168.5.12 slave1
192.168.5.13 slave2
并确保命令解析一致(如 ping master)。
- 在 Ubuntu 22.04 使用 Netplan 配置静态地址(/etc/netplan/*.yaml),示例:
network:
version: 2
renderer: networkd
ethernets:
ens33:
dhcp4: no
addresses: [192.168.5.11/24]
routes: [{ to: default, via: 192.168.5.2 }]
nameservers: { addresses: [8.8.8.8, 8.8.4.4] }
应用:sudo netplan apply。
- 虚拟机/混合网络场景需保证 VMnet/NAT 与宿主机网段一致,并在宿主机(如 Windows C:\Windows\System32\drivers\etc\hosts)补充主机映射,避免跨系统访问失败。
二、主机互通与安全策略
- 配置 SSH 免密登录:所有节点生成密钥(ssh-keygen),主节点将公钥分发至各从节点(ssh-copy-id),并验证 ssh slave1 hostname 可直接返回从节点主机名。
- 防火墙策略:
- 测试环境可临时关闭防火墙;
- 生产环境建议仅 放行 Hadoop 端口(见第四部分),并限制来源网段。
- 建议统一 MTU(如 1500),避免节点间链路分片导致性能劣化或连接异常。
三、Hadoop 关键网络参数配置
- 统一在所有节点设置 HADOOP_HOME / PATH,确保命令全局可用。
- 核心配置文件要点:
- core-site.xml:
- fs.defaultFS:使用主机名或 IP:端口,如 hdfs://master:9000(推荐主机名,便于迁移)。
- hdfs-site.xml:
- dfs.replication:副本数,通常设为 3(或不超过 DataNode 数量)。
- yarn-site.xml:
- yarn.resourcemanager.hostname:指向 ResourceManager 主机名(如 master)。
- 可选:mapred-site.xml 设置 MapReduce 框架为 yarn。
四、端口与连通性验证
- 常用端口范围与用途:
- HDFS:9000(NameNode RPC),9864–9871(DataNode 数据传输与 HTTP 等)。
- YARN/MapReduce:8088(ResourceManager Web),19888(HistoryServer Web)。
- 连通性自检清单:
- 节点间:ping master/slaveX;ssh slaveX 无密码登录。
- 端口:nc -vz master 9000;nc -vz slaveX 9864。
- 服务状态:
- HDFS:hdfs dfsadmin -report(查看 Live Nodes)。
- YARN:yarn node -list(查看 NodeManager 注册)。
- Web:访问 http://master:9870(NameNode)、http://master:8088(ResourceManager)、http://master:19888(HistoryServer)。
五、常见故障排查清单
- 主机名解析失败:核对 /etc/hosts 与命令解析(ping/ssh),必要时在 Windows 宿主机 hosts 同步映射。
- SSH 仍需密码:检查 ~/.ssh/authorized_keys 权限(600)与属主,确认公钥已追加到目标节点。
- 端口不通:确认 防火墙放行 相关端口,且 服务已启动(如 start-dfs.sh/start-yarn.sh)。
- 配置未生效:Hadoop 配置修改后需 重启相应进程 或使用滚动方式重启服务;环境变量变更执行 source /etc/profile 或对应 shell 配置。