下面给你一份在 Linux 上安装 HDFS(Hadoop Distributed File System)的实用指南,适合单机/伪分布式和完全分布式两种常见场景。内容以 Hadoop 3.x 为主(目前最常用)。
Hadoop 依赖 Java。
java -version
如果没有安装:
CentOS / Rocky
sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel
Ubuntu
sudo apt install -y openjdk-8-jdk
推荐 JDK 8 或 JDK 11
sudo useradd -m hadoop
sudo passwd hadoop
su - hadoop
官网:https://hadoop.apache.org/releases.html
cd /opt
sudo wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -zxvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 hadoop
sudo chown -R hadoop:hadoop hadoop
编辑 ~/.bashrc:
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
生效:
source ~/.bashrc
验证:
hadoop version
hadoop-env.shvim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
设置:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
core-site.xmlvim $HADOOP_HOME/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xmlvim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/data/datanode</value>
</property>
</configuration>
创建目录:
mkdir -p /opt/hadoop/data/namenode
mkdir -p /opt/hadoop/data/datanode
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
测试:
ssh localhost
⚠️ 只能执行一次
hdfs namenode -format
start-dfs.sh
检查进程:
jps
应看到:
hdfs dfsadmin -report
hdfs dfs -mkdir /test
hdfs dfs -put /etc/hosts /test
hdfs dfs -ls /test
http://<服务器IP>:9870
如果你是多台服务器:
workers 文件(DataNode 列表)core-site.xml 指向 NameNodeexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
Hadoop 3.x 默认:
✅ 安装步骤概览:
如果你愿意,我可以:
只要告诉我你的 Linux 版本 + 使用场景 即可。