温馨提示×

Ubuntu HDFS配置环境如何搭建

小樊
35
2025-12-08 22:04:00
栏目: 智能运维

Ubuntu 搭建 HDFS 环境步骤

一 环境准备与安装

  • 更新系统并安装基础工具与 SSH:sudo apt update && sudo apt install -y vim ntpdate openssh-server
  • 创建专用用户(推荐):sudo adduser hadoop,并赋予 sudo 权限
  • 安装 Java(二选一,建议与 Hadoop 版本匹配):sudo apt install -y openjdk-8-jdk 或 openjdk-11-jdk;验证:java -version
  • 下载并解压 Hadoop(示例版本 3.3.6):wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz && tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
  • 配置环境变量(~/.bashrc 或 /etc/profile):export HADOOP_HOME=/usr/local/hadoop-3.3.6;export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin;source 使其生效

二 单节点快速搭建

  • 配置 core-site.xml(位于 $HADOOP_HOME/etc/hadoop/): fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/usr/local/hadoop-3.3.6/tmp
  • 配置 hdfs-site.xml: dfs.replication1 dfs.namenode.name.dir/usr/local/hadoop-3.3.6/hdfs/namenode dfs.datanode.data.dir/usr/local/hadoop-3.3.6/hdfs/datanode
  • 创建数据目录并赋权:sudo mkdir -p /usr/local/hadoop-3.3.6/hdfs/{namenode,datanode};sudo chown -R hadoop:hadoop /usr/local/hadoop-3.3.6/hdfs
  • 首次启动前格式化 NameNode:hdfs namenode -format
  • 启动 HDFS:start-dfs.sh;如需 YARN:start-yarn.sh
  • 验证:jps 应看到 NameNode/DataNode/SecondaryNameNode(YARN 可见 ResourceManager/NodeManager);访问 http://localhost:50070(NameNode)与 http://localhost:8088(ResourceManager)

三 多节点集群搭建

  • 规划与网络:确定 NameNode/ResourceManager 与多个 DataNode 的主机名或 IP;建议配置 静态 IP/etc/hosts 解析,保证节点互通
  • 在所有节点配置 SSH 免密登录(以 hadoop 用户):ssh-keygen -t rsa -P ‘’;ssh-copy-id hadoop@namenode;ssh-copy-id hadoop@datanodeX
  • 配置 hdfs-site.xml(示例,3 副本): dfs.replication3 dfs.namenode.name.dir/data/hdfs/namenode dfs.datanode.data.dir/data/hdfs/datanode
  • 配置 core-site.xml(指定 NameNode):fs.defaultFShdfs://namenode:9000
  • 仅在 NameNode 上格式化:hdfs namenode -format
  • 启动:在 NameNode 执行 start-dfs.sh;在 ResourceManager 执行 start-yarn.sh
  • 验证:hdfs dfsadmin -report 查看 Live datanodes;yarn node -list 查看节点;访问 http://namenode:50070http://resourcemanager:8088

四 常用操作与验证

  • 基本命令:hdfs dfs -mkdir -p /user/test;hdfs dfs -put localfile /user/test/;hdfs dfs -ls /user/test;hdfs dfs -get /user/test/file localfile;hdfs dfs -rm /user/test/file
  • 集群状态:hdfs dfsadmin -report(DataNode 数量、容量等);yarn node -list(YARN 节点状态)
  • 进程检查:jps(确认 NameNode/DataNode/SecondaryNameNode/ResourceManager/NodeManager 是否就绪)

五 常见问题与优化

  • 目录权限与路径:确保 dfs.namenode.name.dir/dfs.datanode.data.dir 目录存在且由 hadoop 用户可写;首次启动前必须 格式化 NameNode
  • 防火墙与端口:开放 9000(HDFS RPC)、50070(NameNode Web)、8088(ResourceManager Web);云服务器需配置安全组放行
  • Java 版本匹配:Hadoop 3.x 常用 OpenJDK 8OpenJDK 11,避免版本不兼容
  • 时间与时钟同步:建议启用 NTP:sudo ntpdate cn.pool.ntp.org,避免分布式操作异常
  • 浏览器访问:远程访问需将 localhost 替换为 NameNode/ResourceManager 主机名或公网 IP
  • 性能参数(可选,core-site.xml):调大 io.file.buffer.size=131072 提升 I/O 缓冲;生产环境可按需调整副本数与存储策略

0