温馨提示×

怎样在 Ubuntu 上运行 Hadoop 任务

小樊
36
2025-10-25 06:52:22
栏目: 智能运维

在 Ubuntu 上运行 Hadoop 任务,你需要遵循以下步骤:

  1. 安装 Java: Hadoop 需要 Java 环境。首先确保你的系统上安装了 Java。你可以通过运行以下命令来检查 Java 是否已安装:
java -version

如果没有安装 Java,请使用以下命令安装 OpenJDK:

sudo apt update
sudo apt install openjdk-11-jdk
  1. 下载并解压 Hadoop: 访问 Hadoop 官方网站(https://hadoop.apache.org/releases.html)下载适用于 Linux 的 Hadoop 版本。解压下载的文件:
tar -xzvf hadoop-3.x.x.tar.gz

将解压后的文件夹移动到合适的位置,例如 /usr/local/hadoop

sudo mv hadoop-3.x.x /usr/local/hadoop
  1. 配置 Hadoop 环境变量: 编辑 ~/.bashrc 文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件并运行 source ~/.bashrc 使更改生效。

  1. 配置 Hadoop: 根据你的需求和集群设置,编辑 Hadoop 配置文件。主要配置文件包括:
  • core-site.xml:配置 Hadoop 核心设置,例如文件系统 URI。
  • hdfs-site.xml:配置 HDFS 设置,例如副本数、数据目录等。
  • mapred-site.xml:配置 MapReduce 设置,例如作业历史服务器地址等。
  • yarn-site.xml:配置 YARN 设置,例如资源管理器地址等。
  1. 格式化 HDFS: 在首次运行 Hadoop 之前,需要对 HDFS 进行格式化:
hdfs namenode -format
  1. 启动 Hadoop 集群: 启动 Hadoop 的各个组件,包括 HDFS 和 YARN:
start-dfs.sh
start-yarn.sh
  1. 运行 Hadoop 任务: 使用 hadoop jar 命令运行 Hadoop 任务。例如,运行一个名为 wordcount.jar 的 MapReduce 作业:
hadoop jar wordcount.jar input_directory output_directory

其中,input_directory 是输入数据所在的 HDFS 目录,output_directory 是输出结果所在的 HDFS 目录。

  1. 查看任务进度和结果: 你可以使用以下命令查看 MapReduce 任务的进度和结果:
yarn application -list
yarn application -status <application_id>

完成以上步骤后,你就可以在 Ubuntu 上运行 Hadoop 任务了。根据你的需求和集群设置,可能需要调整配置文件以满足特定需求。

0