下面按由浅入深的方式,给你一份在 Linux 上配置 HDFS(Hadoop 分布式文件系统) 的常用操作流程,适合 单机伪分布式 和 完全分布式 两种场景。
java -version
如未安装:
# CentOS
yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel
# Ubuntu
apt install -y openjdk-8-jdk
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 /usr/local/hadoop
编辑 ~/.bashrc 或 /etc/profile:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
生效:
source ~/.bashrc
所有配置文件位于:
$HADOOP_HOME/etc/hadoop/
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
如果是完全分布式,localhost 改为 NameNode 主机名或 IP
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/datanode</value>
</property>
</configuration>
创建目录:
mkdir -p /data/hadoop/namenode
mkdir -p /data/hadoop/datanode
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
测试:
ssh localhost
⚠️ 格式化会清空 HDFS 元数据
hdfs namenode -format
成功标志:
Storage directory /data/hadoop/namenode has been successfully formatted
start-dfs.sh
jps
应看到:
http://服务器IP:9870
hdfs dfs -mkdir /test
hdfs dfs -put test.txt /test
hdfs dfs -ls /test
$HADOOP_HOME/etc/hadoop/workers
node1
node2
node3
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
解决:
# 清空 namenode 和 datanode 目录后重新格式化
检查:
netstat -tunlp | grep 9000
# 安装
tar -zxvf hadoop-*.tar.gz
# 配置
core-site.xml
hdfs-site.xml
# 格式化
hdfs namenode -format
# 启动
start-dfs.sh
如果你愿意,我可以帮你:
你现在用的是 单机还是集群?哪套 Linux?