在 Ubuntu 上运行 Hadoop 任务,你需要遵循以下步骤:
java -version
如果没有安装 Java,请使用以下命令安装 OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
tar -xzvf hadoop-3.x.x.tar.gz
将解压后的文件夹移动到合适的位置,例如 /usr/local/hadoop:
sudo mv hadoop-3.x.x /usr/local/hadoop
~/.bashrc 文件,添加以下内容:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并运行 source ~/.bashrc 使更改生效。
core-site.xml:配置 Hadoop 核心设置,例如文件系统 URI。hdfs-site.xml:配置 HDFS 设置,例如副本数、数据目录等。mapred-site.xml:配置 MapReduce 设置,例如作业历史服务器地址等。yarn-site.xml:配置 YARN 设置,例如资源管理器地址等。hdfs namenode -format
start-dfs.sh
start-yarn.sh
hadoop jar 命令运行 Hadoop 任务。例如,运行一个名为 wordcount.jar 的 MapReduce 作业:hadoop jar wordcount.jar input_directory output_directory
其中,input_directory 是输入数据所在的 HDFS 目录,output_directory 是输出结果所在的 HDFS 目录。
yarn application -list
yarn application -status <application_id>
完成以上步骤后,你就可以在 Ubuntu 上运行 Hadoop 任务了。根据你的需求和集群设置,可能需要调整配置文件以满足特定需求。