温馨提示×

CentOS下HDFS网络配置有哪些要点

小樊
40
2025-12-25 16:18:37
栏目: 智能运维

CentOS 下 HDFS 网络配置要点

一 基础网络与主机解析

  • 使用静态 IP:编辑网卡配置文件(如 /etc/sysconfig/network-scripts/ifcfg-ens33),将 BOOTPROTO=static,并设置 IPADDR、NETMASK、GATEWAY、DNS1 等;执行 systemctl restart network 使配置生效。示例: DEVICE=ens33 BOOTPROTO=static IPADDR=192.168.1.100 NETMASK=255.255.255.0 GATEWAY=192.168.1.1 DNS1=8.8.8.8 ONBOOT=yes
  • 设置主机名/etc/hosts:用 hostnamectl set-hostname <主机名> 设置唯一主机名;在 /etc/hosts 中为所有节点添加 IP 与主机名映射,保证节点间可用主机名互通。
  • 配置 SSH 免密登录:在集群内各节点间生成密钥并分发公钥,便于 start-dfs.sh 等脚本无交互启动服务。
  • 可选优化:为提升解析稳定性与速度,可使用本地 DNS 缓存或选择性能更优的 DNS 服务器

二 防火墙与安全策略

  • 放行 HDFS 端口(firewalld):
    • 常用端口:9000(HDFS RPC/fs.defaultFS)、50070/50075(NameNode/DataNode HTTP)、50010/50020(DataNode 数据传输/IPC)、50090(SecondaryNameNode)、8020(RPC 常用端口)、8485(JournalNode,HA 场景)。
    • 命令示例:firewall-cmd --permanent --add-port=9000/tcp;firewall-cmd --reload。
  • 生产环境不建议直接禁用 firewalld/SELinux,应仅按需放行端口并保留最小权限策略。

三 Hadoop 网络关键配置

  • 核心配置(示例):
    • core-site.xml:设置 fs.defaultFS=hdfs://:9000(或 hdfs:// 用于 HA/联邦)。
    • hdfs-site.xml:设置 dfs.replication(副本数,通常 3)、dfs.namenode.name.dirdfs.datanode.data.dir 等持久化目录。
  • HA 必要配置(示例):
    • 引入 dfs.nameservices,为每个 NameNode 配置 dfs.ha.namenodes.dfs.namenode.rpc-address..dfs.namenode.http-address..
    • 配置 dfs.client.failover.proxy.provider.(如 ConfiguredFailoverProxyProvider);
    • 使用 JournalNode 时配置 dfs.namenode.shared.edits.dir=qjournal://:<8485>;:<8485>;:<8485>/
  • 联邦多集群识别(跨集群访问/DistCp):
    • dfs.nameservices 中列出所有需要识别的 nameservice
    • dfs.internal.nameservices 指定本集群的 nameservice
    • 为远端 nameservice 完整配置其 HA 参数failover 代理,客户端即可用逻辑名透明访问。

四 连通性验证与常见排障

  • 基础连通性:用 ping <IP/主机名> 验证节点间网络;用 ssh <主机名> 验证免密登录与解析是否正确。
  • 服务可达性:在浏览器访问 http://:50070 查看 NameNode Web UI;使用 hdfs dfsadmin -report 检查 DataNode 注册与健康状态。
  • 进程检查:用 jps 确认 NameNode/DataNode/SecondaryNameNode 等进程已启动。
  • 日志定位:若端口不通或进程异常,优先查看 $HADOOP_HOME/logs/ 下对应进程的 .log/.out 文件。

五 性能与安全加固建议

  • 内核与网络优化:在 /etc/sysctl.conf 中调优如 net.core.somaxconn、net.ipv4.tcp_max_syn_backlog、net.ipv4.tcp_fin_timeout 等;对支持多队列的网卡启用 多队列 提升吞吐。
  • 监控与容量:使用 iftop、nload、nethogs 等工具监控带宽与连接,结合业务峰值规划 副本数磁盘/网络 容量。
  • 安全基线:仅开放必要端口;为运维与数据通道设置最小权限;启用 DNS 优化/缓存 降低解析抖动;定期审计与更新。

0