温馨提示×

配置CentOS HDFS需要哪些准备工作

小樊
41
2026-01-11 05:03:23
栏目: 智能运维

CentOS 上配置 HDFS 的准备工作清单

一 基础环境与系统要求

  • 操作系统建议使用 CentOS 7 或更高版本,保证系统软件源可用与内核/glibc版本较新。
  • 安装并验证 Java 8(OpenJDK 或 Oracle JDK),Hadoop 3.x 系列普遍以 Java 8 为主;配置环境变量 JAVA_HOME 并加入 PATH。
  • 安装 SSH 服务 并配置本机与节点间的 SSH 免密登录(便于启动/停止集群与管理脚本分发)。
  • 建议创建专用的 hadoop 系统用户(如:hadoop),后续目录与进程以该用户运行,便于权限隔离与审计。

二 网络与主机规划

  • 规划集群拓扑:至少明确 1 个 NameNode≥1 个 DataNode;生产环境建议 ≥3 个 DataNode 以支撑副本与容错。
  • 配置 静态 IP主机名解析:编辑 /etc/hosts 或使用 DNS,确保各节点可通过主机名互相访问;示例:
    • 192.168.1.10 master
    • 192.168.1.11 slave1
    • 192.168.1.12 slave2
  • 统一 NTP 时间同步(chrony 或 ntpd),避免安全模式/审计/数据一致性问题。
  • 规划目录与端口:提前创建本地数据目录(如 /data/hdfs/namenode/data/hdfs/datanode),并确认 SELinux 处于合适状态(测试环境可先禁用,生产按策略配置)。

三 依赖软件与用户权限

  • 安装常用工具与依赖:openssh-server/openssh-clients、wget、tar、vim、net-tools、ntp/chrony、lrzsz 等,便于部署与排障。
  • 创建 Hadoop 运行用户与组(如 hadoop:hadoop),并规划目录属主/权限,确保进程对 NameNode/DataNode 数据目录 具备读写权限。
  • 配置 sudo 免密或专用管理账号,用于执行启动/停止脚本与日常运维(遵循最小权限原则)。

四 防火墙与端口规划

  • 开放 HDFS 常用端口(或临时关闭防火墙用于联调):
    • 9000(HDFS RPC/fs.defaultFS)
    • 50070(NameNode Web UI)
    • 50010/50020(DataNode 数据传输)
    • 50075(DataNode HTTP)
    • 50090(SecondaryNameNode/Checkpoint)
  • 使用 firewalld 放通示例:
    • firewall-cmd --permanent --add-port=9000/tcp
    • firewall-cmd --permanent --add-port=50070/tcp
    • firewall-cmd --reload
  • 如部署在云环境,同步在 安全组 中放行对应端口。

五 Hadoop 安装包与目录规划

  • 下载并解压 Hadoop 3.x(如 3.3.x)至统一目录(如 /opt/hadoop-3.3.x/usr/local/hadoop),并创建软链便于升级。
  • 配置环境变量(建议写入 /etc/profile.d/hadoop.sh):
    • export HADOOP_HOME=/opt/hadoop-3.3.x
    • export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    • export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • 规划本地数据目录(示例):
    • dfs.namenode.name.dir:/data/hdfs/namenode
    • dfs.datanode.data.dir:/data/hdfs/datanode
  • 规划 HDFS 基础参数:如 dfs.replication(单机/伪分布式可用 1,生产建议 3),后续在 core-site.xml/hdfs-site.xml 中落地。

0