确保HADOOP_HOME和PATH环境变量已正确设置,这是Hadoop命令执行的基础。
echo $HADOOP_HOME,应输出Hadoop安装目录(如/usr/local/hadoop-3.3.4);echo $PATH,应包含$HADOOP_HOME/bin和$HADOOP_HOME/sbin路径;~/.bashrc文件,添加以下内容并执行source ~/.bashrc使其生效:export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
HDFS的关键配置文件位于$HADOOP_HOME/etc/hadoop目录下,需检查以下文件的核心参数:
fs.defaultFS参数设置为NameNode的URI(本地测试用localhost,集群用主机名/IP),例如:<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
dfs.replication:数据块副本数(本地测试设为1,集群设为节点数的2/3以上);dfs.namenode.name.dir:NameNode元数据存储路径(如/usr/local/hadoop-3.3.4/data/namenode);dfs.datanode.data.dir:DataNode数据存储路径(如/usr/local/hadoop-3.3.4/data/datanode)。NameNode首次启动前必须格式化(清空元数据),格式化后需重启服务:
hdfs namenode -format命令,若输出“Format successful”则表示成功;start-dfs.sh),避免重复格式化(否则会丢失元数据)。启动HDFS服务后,通过jps命令查看关键进程是否运行:
jps,应看到以下进程:
$HADOOP_HOME/logs目录),定位启动失败原因。通过浏览器查看HDFS集群状态,确认服务是否正常运行:
http://localhost:9870(Hadoop 3.x版本)或http://localhost:50070(Hadoop 2.x版本);通过命令行工具执行HDFS操作,验证配置是否可用:
hdfs dfs -mkdir -p /user/test;hdfs dfs -put /path/to/localfile /user/test(将/path/to/localfile替换为本地文件路径);hdfs dfs -ls /user/test;hdfs dfs -get /user/test/remotefile /path/to/localdir(将remotefile替换为HDFS文件名,/path/to/localdir替换为本地目录路径);hdfs dfs -rm /user/test/remotefile。通过hdfs dfsadmin命令获取集群健康状态和详细信息:
hdfs dfsadmin -report,输出内容包括: