配置CentOS HDFS需要哪些准备工作
小樊
41
2026-01-11 05:03:23
CentOS 上配置 HDFS 的准备工作清单
一 基础环境与系统要求
- 操作系统建议使用 CentOS 7 或更高版本,保证系统软件源可用与内核/glibc版本较新。
- 安装并验证 Java 8(OpenJDK 或 Oracle JDK),Hadoop 3.x 系列普遍以 Java 8 为主;配置环境变量 JAVA_HOME 并加入 PATH。
- 安装 SSH 服务 并配置本机与节点间的 SSH 免密登录(便于启动/停止集群与管理脚本分发)。
- 建议创建专用的 hadoop 系统用户(如:hadoop),后续目录与进程以该用户运行,便于权限隔离与审计。
二 网络与主机规划
- 规划集群拓扑:至少明确 1 个 NameNode 与 ≥1 个 DataNode;生产环境建议 ≥3 个 DataNode 以支撑副本与容错。
- 配置 静态 IP 与 主机名解析:编辑 /etc/hosts 或使用 DNS,确保各节点可通过主机名互相访问;示例:
- 192.168.1.10 master
- 192.168.1.11 slave1
- 192.168.1.12 slave2
- 统一 NTP 时间同步(chrony 或 ntpd),避免安全模式/审计/数据一致性问题。
- 规划目录与端口:提前创建本地数据目录(如 /data/hdfs/namenode、/data/hdfs/datanode),并确认 SELinux 处于合适状态(测试环境可先禁用,生产按策略配置)。
三 依赖软件与用户权限
- 安装常用工具与依赖:openssh-server/openssh-clients、wget、tar、vim、net-tools、ntp/chrony、lrzsz 等,便于部署与排障。
- 创建 Hadoop 运行用户与组(如 hadoop:hadoop),并规划目录属主/权限,确保进程对 NameNode/DataNode 数据目录 具备读写权限。
- 配置 sudo 免密或专用管理账号,用于执行启动/停止脚本与日常运维(遵循最小权限原则)。
四 防火墙与端口规划
- 开放 HDFS 常用端口(或临时关闭防火墙用于联调):
- 9000(HDFS RPC/fs.defaultFS)
- 50070(NameNode Web UI)
- 50010/50020(DataNode 数据传输)
- 50075(DataNode HTTP)
- 50090(SecondaryNameNode/Checkpoint)
- 使用 firewalld 放通示例:
- firewall-cmd --permanent --add-port=9000/tcp
- firewall-cmd --permanent --add-port=50070/tcp
- firewall-cmd --reload
- 如部署在云环境,同步在 安全组 中放行对应端口。
五 Hadoop 安装包与目录规划
- 下载并解压 Hadoop 3.x(如 3.3.x)至统一目录(如 /opt/hadoop-3.3.x 或 /usr/local/hadoop),并创建软链便于升级。
- 配置环境变量(建议写入 /etc/profile.d/hadoop.sh):
- export HADOOP_HOME=/opt/hadoop-3.3.x
- export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 规划本地数据目录(示例):
- dfs.namenode.name.dir:/data/hdfs/namenode
- dfs.datanode.data.dir:/data/hdfs/datanode
- 规划 HDFS 基础参数:如 dfs.replication(单机/伪分布式可用 1,生产建议 3),后续在 core-site.xml/hdfs-site.xml 中落地。