Ubuntu上Hadoop数据存储的配置与管理
在Ubuntu系统上部署Hadoop数据存储(核心为HDFS,Hadoop Distributed File System)需完成基础配置、性能优化及日常管理,以下是具体指南:
sudo apt update && sudo apt install openjdk-8-jdk安装,验证版本java -version。/usr/local/hadoop-3.3.4),并通过chown -R hadoop:hadoop /usr/local/hadoop-3.3.4设置所有权。编辑Hadoop配置目录($HADOOP_HOME/etc/hadoop)下的关键文件:
<property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>。<property>
<name>dfs.replication</name> <!-- 副本数,默认3,单节点可设为1 -->
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name> <!-- NameNode元数据存储路径 -->
<value>/usr/local/hadoop-3.3.4/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name> <!-- DataNode数据存储路径 -->
<value>/usr/local/hadoop-3.3.4/data/datanode</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>。hdfs namenode -format。start-dfs.sh启动HDFS,start-yarn.sh启动YARN(若启用)。jps命令检查进程(应包含NameNode、DataNode、ResourceManager、NodeManager);访问Web界面(NameNode: http://localhost:50070,ResourceManager: http://localhost:8088)。dfs.datanode.data.dir)挂载至SSD,显著提升I/O性能。dfs.namenode.handler.count调整线程数),避免元数据处理瓶颈。dfs.blocksize设置)。Hadoop Archive工具)减少元数据压力。mapreduce.job.locality.wait调整等待时间),减少网络传输延迟。mapreduce.map.output.compress=true)和最终输出(mapreduce.output.fileoutputformat.compress=true)启用压缩(如Snappy算法),降低存储空间占用与网络传输开销。hdfs dfsadmin -report查看集群健康状态与存储容量;hdfs dfs -ls /列出根目录文件;yarn application -list查看运行中的作业。hdfs dfs -put local_file /hdfs_path将本地文件上传至HDFS,hdfs dfs -get /hdfs_path local_file下载至本地。hdfs dfs -rm /path删除文件或目录(慎用-r递归删除)。hadoop archive命令将小文件归档为HAR文件,减少NameNode负载。$HADOOP_HOME/logs目录(如NameNode日志为hadoop-*-namenode-*.log),通过日志分析错误原因(如磁盘空间不足、网络连接问题)。通过以上配置与优化,可在Ubuntu系统上构建高性能、可靠的Hadoop数据存储系统,满足大规模数据处理需求。