温馨提示×

Debian上Hadoop集群如何搭建

小樊
62
2025-03-21 08:46:45
栏目: 智能运维

在Debian上搭建Hadoop集群涉及多个步骤,包括准备节点、安装Java环境、配置网络、安装Hadoop以及配置Hadoop集群。以下是一个详细的步骤指南:

1. 准备节点

  • 静态网络配置:编辑 /etc/network/interfaces 文件,注释掉自动获取IP的部分,并添加静态IP配置。
  • 修改 /etc/hosts 文件:添加所有节点的IP地址和主机名。
  • 安装OpenSSH服务器sudo apt-get install openssh-server
  • 生成SSH密钥:在各节点上执行 ssh-keygen 命令生成SSH密钥。
  • 免密码登录:使用 ssh-copy-id 命令将公钥复制到其他节点,实现免密码登录。
  • 创建用户和用户组:在各节点上创建用户 hadoop 并设置用户组。

2. 安装Java环境

  • 更新系统sudo apt update && sudo apt upgrade
  • 添加Debian仓库
    sudo apt install apt-transport-https ca-certificates curl gnupg2 software-properties-common
    curl -fsSL https://deb.nodesource.com/setup_14.x | sudo -E bash -
    sudo apt-get install -y nodejs
    
  • 安装Java 11
    sudo apt update
    sudo apt install adoptopenjdk-11-hotspot
    
  • 验证Java安装java -version

3. 安装Hadoop

  • 下载Hadoop:从Apache镜像下载稳定版本的Hadoop。
  • 解压Hadoop安装包:将Hadoop解压到 /opt 目录。
  • 创建Hadoop软链接sudo ln -sf /opt/hadoop-3.2.0 /opt/hadoop
  • 创建日志和HDFS目录
    sudo mkdir -p /opt/hadoop/logs
    sudo mkdir -p /opt/hadoop/hdfs/name
    sudo mkdir -p /opt/hadoop/hdfs/data
    
  • 配置Hadoop环境变量
    • 创建 /etc/profile.d/hadoop.sh 文件,添加以下内容:
      export HADOOP_HOME=/opt/hadoop
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      
    • 使配置文件生效:source /etc/profile

4. 配置Hadoop集群

  • 配置Hadoop环境变量
    • 编辑 /etc/hadoop/hadoop-env.sh 文件,设置 JAVA_HOME
  • 配置 core-site.xml
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://master:9000</value>
        </property>
    </configuration>
    
  • 配置 hdfs-site.xml
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/opt/hadoop/hdfs/name</value>
        </property>
    </configuration>
    
  • 配置 yarn-site.xml
    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>master</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    
  • 配置 mapred-site.xml(如果使用MapReduce):
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

5. 启动Hadoop集群

  • 格式化NameNode
    hdfs namenode -format
    
  • 启动Hadoop集群
    start-dfs.sh
    start-yarn.sh
    
  • 检查集群状态
    • 使用 jps 命令检查各个守护进程是否启动。
    • 访问Hadoop Web UI:http://master:9000

请注意,以上步骤是一个基本的指南,具体配置可能需要根据实际需求进行调整。在搭建集群之前,建议详细阅读Hadoop官方文档,并根据实际情况进行相应的配置。

0