怎样在 Ubuntu 上运行 Hadoop 任务

ubuntu

小樊

2025-10-25 06:52:22

栏目: 智能运维

在 Ubuntu 上运行 Hadoop 任务，你需要遵循以下步骤：

java -version

如果没有安装 Java，请使用以下命令安装 OpenJDK：

sudo apt update
sudo apt install openjdk-11-jdk

下载并解压 Hadoop：访问 Hadoop 官方网站（https://hadoop.apache.org/releases.html）下载适用于 Linux 的 Hadoop 版本。解压下载的文件：

tar -xzvf hadoop-3.x.x.tar.gz

将解压后的文件夹移动到合适的位置，例如 /usr/local/hadoop：

sudo mv hadoop-3.x.x /usr/local/hadoop

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件并运行 source ~/.bashrc 使更改生效。

hdfs namenode -format

start-dfs.sh
start-yarn.sh

运行 Hadoop 任务：使用 hadoop jar 命令运行 Hadoop 任务。例如，运行一个名为 wordcount.jar 的 MapReduce 作业：

hadoop jar wordcount.jar input_directory output_directory

其中，input_directory 是输入数据所在的 HDFS 目录，output_directory 是输出结果所在的 HDFS 目录。

yarn application -list
yarn application -status <application_id>

完成以上步骤后，你就可以在 Ubuntu 上运行 Hadoop 任务了。根据你的需求和集群设置，可能需要调整配置文件以满足特定需求。

最新问答