以下是在Debian系统上配置Hadoop的指南:
更新系统:sudo apt update,sudo apt upgrade -y。安装Java 8或更高版本,如sudo apt install openjdk-11-jdk -y,并验证安装java -version。创建Hadoop用户sudo adduser hadoop,并赋予sudo权限sudo usermod -aG sudo hadoop。
从Apache官网下载Hadoop,如wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz,然后解压到指定目录,如/usr/local:tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/。
编辑~/.bashrc或/etc/profile文件,添加export HADOOP_HOME=/usr/local/hadoop和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,然后执行source ~/.bashrc或source /etc/profile使配置生效。
fs.defaultFS为hdfs://namenode:9000,hadoop.tmp.dir为数据临时目录,如/usr/local/hadoop/tmp。dfs.replication为数据副本数,如3;设置dfs.namenode.name.dir和dfs.datanode.data.dir分别为NameNode和DataNode的数据存储目录。mapreduce.framework.name为yarn。yarn.nodemanager.aux - services为mapreduce_shuffle,yarn.nodemanager.aux - services.mapreduce.shuffle.class为org.apache.hadoop.mapred.ShuffleHandler。编辑/etc/network/interfaces配置静态IP等信息,编辑/etc/hosts添加所有节点的IP和主机名。关闭防火墙sudo ufw disable。
在NameNode上格式化HDFS:hdfs namenode -format。在NameNode上启动HDFS服务start-dfs.sh,在ResourceManager上启动YARN服务start-yarn.sh。
通过hdfs dfs -ls /查看HDFS文件系统,通过yarn node -list查看YARN节点状态,也可访问NameNode的Web界面http://namenode:9000验证。