Hadoop可以在Ubuntu上进行分布式部署,这是Hadoop官方推荐的支持平台之一。Ubuntu的稳定性、丰富的软件包管理(如APT)以及对Java环境的良好支持,使其成为搭建Hadoop分布式集群的常用操作系统。
在开始部署前,需确保满足以下基础要求:
JAVA_HOME环境变量。hadoop)并加入hadoop组,避免使用root用户操作,提升安全性。sudo apt update && sudo apt install openjdk-11-jdk,安装后通过java -version验证。/usr/local/hadoop),并通过chown命令将目录所有权赋予hadoop用户。ssh-keygen -t rsa(默认路径,连续回车)。ssh-copy-id hadoop@slave1(替换为从节点IP或主机名)。ssh hadoop@slave1,若无需输入密码则表示成功。Hadoop的主要配置文件位于$HADOOP_HOME/etc/hadoop目录下,需修改以下关键文件:
fs.defaultFS=hdfs://master:9000(master为主节点主机名)。dfs.replication=2,根据从节点数量调整)、NameNode数据目录(dfs.namenode.name.dir)、DataNode数据目录(dfs.datanode.data.dir)。mapreduce.framework.name=yarn)。yarn.resourcemanager.hostname=master)及Shuffle服务(yarn.nodemanager.aux-services=mapreduce_shuffle)。slave1\nslave2),用于启动DataNode和NodeManager。hdfs namenode -format(仅执行一次)。start-dfs.sh启动HDFS服务,start-yarn.sh启动YARN服务。jps命令查看主节点(NameNode、ResourceManager)和从节点(DataNode、NodeManager)的进程是否启动;通过浏览器访问http://master:9870(NameNode管理界面)和http://master:8088(ResourceManager管理界面),确认集群状态。hdfs dfs -put /local/path/file.txt /user/hadoop/。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/hadoop/file.txt /user/hadoop/output。hdfs dfs -cat /user/hadoop/output/part-r-00000,若输出单词统计结果则表示部署成功。/etc/hostname和/etc/hosts文件配置一致,避免因主机名解析问题导致通信失败。hadoop用户所有权,避免权限不足导致的启动错误。sudo ufw disable)或开放必要端口(如SSH的22端口、HDFS的9000端口),确保节点间通信畅通。通过以上步骤,即可在Ubuntu上完成Hadoop的分布式部署,搭建起具备高可用性的分布式计算集群。