Ubuntu HDFS配置环境要求是什么
小樊
40
2025-12-16 20:14:31
Ubuntu 上配置 HDFS 的环境要求
一 软件与系统要求
- 操作系统:建议使用 Ubuntu 20.04/22.04 LTS(或 18.04+),64 位版本。
- Java 运行时:Hadoop 3.x 要求 Java 8 或 Java 11(推荐 OpenJDK 8/11)。
- Hadoop 版本:选择 Hadoop 3.3.x 系列的稳定版本(如 3.3.6)。
- 基础工具:安装 SSH 服务 与 基础构建工具(便于集群节点间通信与维护)。
- 浏览器(可选):用于访问 HDFS Web UI(便于运维查看)。
二 硬件与资源建议
- 单机/伪分布式(学习与功能验证):至少 4 GB RAM、多核 CPU、≥10 GB 可用磁盘空间。
- 分布式集群(多节点):建议 ≥3 台物理机/虚拟机;副本数 dfs.replication=3 时,NameNode 与 DataNode 磁盘需按副本与数据增长预留充足空间。
- 网络:节点间建议 千兆及以上 内网带宽,低时延更稳定。
三 网络与端口要求
- 端口与访问:
- HDFS NameNode IPC/HTTP:默认 9000(RPC),9870(HDFS Web UI,3.x 版本;2.x 为 50070)。
- YARN(若同时部署):8088(ResourceManager Web UI)。
- 主机名与解析:多节点需正确配置 /etc/hosts 或使用 DNS,确保节点名可互相解析。
- 防火墙与安全组:开放 9000、9870、8088 等端口(或临时关闭防火墙用于测试)。
四 多节点与账户前置条件
- SSH 免密登录:各节点间(尤其是 NameNode → DataNode)配置 SSH 免密,便于脚本化启停与集群管理。
- 用户与目录权限:为 Hadoop 运行用户创建目录并授予合适权限(如 namenode/datanode 数据目录)。
- 一致性:确保 Hadoop 安装目录与配置文件在各节点一致,时间同步(如 NTP)以减少分布式协调问题。
五 快速自检清单
- 执行
java -version 与 javac -version,确认为 Java 8/11。
- 已安装 SSH 服务 并可通过
ssh localhost 免密登录本机。
- 已下载并解压 Hadoop 3.3.x,设置 JAVA_HOME/HADOOP_HOME 与 PATH。
- 伪分布式下
core-site.xml 的 fs.defaultFS=hdfs://localhost:9000 已配置。
- 已创建 dfs.namenode.name.dir 与 dfs.datanode.data.dir 目录并赋权。
- 首次启动前已执行
hdfs namenode -format,并能通过 jps 看到 NameNode/DataNode(伪分布式还应有 SecondaryNameNode)。