以下是在Linux下配置Hadoop集群的步骤:
/etc/profile文件,添加JAVA_HOME、HADOOP_HOME及PATH等相关配置,然后执行source /etc/profile使配置生效。core-site.xml:配置HDFS的默认文件系统和临时目录,如fs.defaultFS和hadoop.tmp.dir。hdfs-site.xml:设置HDFS的副本数、数据目录等,如dfs.replication、dfs.namenode.name.dir和dfs.datanode.data.dir。mapred-site.xml:指定MapReduce运行框架为YARN,即mapreduce.framework.name。yarn-site.xml:配置YARN的资源管理器和节点管理器等相关参数,如yarn.nodemanager.aux - services和yarn.resourcemanager.hostname。ssh-keygen -t rsa命令。~/.ssh/authorized_keys文件中,可使用ssh-copy-id命令。/etc/hadoop/workers文件(或slaves文件),添加所有从节点的主机名或IP地址。scp命令将配置好的Hadoop文件夹分发到所有从节点。hdfs namenode -format格式化NameNode。start-dfs.sh启动HDFS,执行start-yarn.sh启动YARN。jps命令查看各节点上的Hadoop相关进程是否正常启动。http://namenode - ip:9870)和YARN的Web UI(如http://namenode - ip:8088)来验证集群状态。