温馨提示×

linux hdfs如何安装

小樊
46
2026-07-01 15:04:09
栏目: 智能运维

下面给你一份在 Linux 上安装 HDFS(Hadoop Distributed File System)的实用指南,适合单机/伪分布式完全分布式两种常见场景。内容以 Hadoop 3.x 为主(目前最常用)。


一、环境准备

1. 操作系统

  • Linux(CentOS 7/8、Rocky、Ubuntu、Debian 等均可)

2. 安装 JDK(必须)

Hadoop 依赖 Java。

java -version

如果没有安装:

CentOS / Rocky

sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel

Ubuntu

sudo apt install -y openjdk-8-jdk

推荐 JDK 8 或 JDK 11


二、创建 Hadoop 用户(可选但推荐)

sudo useradd -m hadoop
sudo passwd hadoop
su - hadoop

三、下载并安装 Hadoop

1. 下载 Hadoop

官网:https://hadoop.apache.org/releases.html

cd /opt
sudo wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -zxvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 hadoop
sudo chown -R hadoop:hadoop hadoop

2. 配置环境变量

编辑 ~/.bashrc

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

生效:

source ~/.bashrc

验证:

hadoop version

四、配置 HDFS(伪分布式模式)

1. 配置 hadoop-env.sh

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

设置:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

2. 配置 core-site.xml

vim $HADOOP_HOME/etc/hadoop/core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

3. 配置 hdfs-site.xml

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>

创建目录:

mkdir -p /opt/hadoop/data/namenode
mkdir -p /opt/hadoop/data/datanode

五、配置 SSH 免密登录(必须)

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

测试:

ssh localhost

六、格式化 HDFS(仅第一次)

⚠️ 只能执行一次

hdfs namenode -format

七、启动 HDFS

start-dfs.sh

检查进程:

jps

应看到:

  • NameNode
  • DataNode
  • SecondaryNameNode

八、验证 HDFS

查看 HDFS 状态

hdfs dfsadmin -report

创建目录并上传文件

hdfs dfs -mkdir /test
hdfs dfs -put /etc/hosts /test
hdfs dfs -ls /test

九、Web UI 访问

  • NameNode UI
    http://<服务器IP>:9870
    

十、完全分布式(简要说明)

如果你是多台服务器:

  1. 每台机器安装相同 Hadoop
  2. 配置:
    • workers 文件(DataNode 列表)
    • core-site.xml 指向 NameNode
  3. 时间同步(NTP)
  4. 所有节点 SSH 互信
  5. 只在 NameNode 上格式化

十一、常见问题

1. JAVA_HOME 未设置

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

2. 端口被占用

Hadoop 3.x 默认:

  • NameNode:9870
  • HDFS:9000

十二、总结

✅ 安装步骤概览:

  1. 安装 JDK
  2. 下载 Hadoop
  3. 配置环境变量
  4. 配置 HDFS
  5. SSH 免密
  6. 格式化
  7. 启动

如果你愿意,我可以:

  • ✅ 给你 CentOS / Ubuntu 一键安装脚本
  • ✅ 帮你搭建 完全分布式 HDFS 集群
  • ✅ 结合 Spark / Hive / YARN 一起部署

只要告诉我你的 Linux 版本 + 使用场景 即可。

0