温馨提示×

Ubuntu HDFS集群搭建步骤详解

小樊
62
2025-05-06 05:35:48
栏目: 智能运维

搭建一个Ubuntu HDFS集群涉及多个步骤,从基础安装到配置各个服务,再到启动集群。以下是一个详细的步骤指南:

1. 基础安装

  • 更新系统软件包列表:
    sudo apt update
    
  • 安装必要的软件包:
    sudo apt install vim ntpdate
    

2. 校准Linux系统时间

  • 使用NTP服务校准系统时间:
    sudo ntpdate cn.pool.ntp.org
    

3. 创建Hadoop用户

  • 创建一个新用户并赋予sudo权限:
    sudo adduser hadoop
    sudo vi /etc/sudoers
    # 将root那行复制后修改成hadoop,hadoop就有了root权限
    

4. 配置SSH免密登录

  • 生成SSH密钥对:
    ssh-keygen
    
  • 将公钥复制到其他节点:
    ssh-copy-id (your-slave-ip1)
    ssh-copy-id (your-slave-ip2)
    ssh-copy-id (your-slave-ip3)
    

5. 安装JDK

  • 安装OpenJDK 8:
    sudo apt-get install -y openjdk-8-jdk
    sudo update-java-alternatives --set java-1.8.0-openjdk
    java -version
    
  • 配置Java环境变量:
    vi ~/.bashrc
    export JAVA_HOME /usr/lib/jvm/java-1.8.0-openjdk-amd64
    export JRE_HOME ${JAVA_HOME}/jre
    export CLASSPATH .:${JAVA_HOME}/lib:${JRE_HOME}/lib
    export PATH ${JAVA_HOME}/bin:$PATH
    source ~/.bashrc
    

6. 下载并解压Hadoop

  • 下载Hadoop 2.7.7安装包:
    wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
    tar xvf hadoop-2.7.7.tar.gz
    

7. 配置Hadoop环境变量

  • 编辑~/.bashrc文件,添加Hadoop环境变量:
    export HADOOP_HOME /home/hadoop/hadoop-2.7.7
    export PATH=$PATH:$HADOOP_HOME/bin
    source ~/.bashrc
    

8. 修改Hadoop配置文件

  • 编辑core-site.xml
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/hadoop/hdata</value>
        </property>
    </configuration>
    
  • 编辑hdfs-site.xml
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>2</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>(your-master-ip):50090</value>
        </property>
        <property>
            <name>dfs.datanode.fsdataset.volume.choosing.policy</name>
            <value>org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy</value>
        </property>
    </configuration>
    
  • 编辑mapred-site.xml
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    
  • 编辑yarn-site.xml
    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>(your-master-ip)</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    

9. 格式化NameNode

  • 格式化NameNode:
    hdfs namenode -format
    

10. 启动HDFS集群

  • 启动HDFS服务:
    cd $HADOOP_HOME/sbin
    ./start-dfs.sh
    

11. 验证集群状态

  • 使用以下命令检查集群状态:
    hdfs dfsadmin -report
    
  • 访问NameNode的Web界面:
    http://namenode-host:50070
    

注意事项

  • 确保所有节点的配置文件一致。
  • 检查防火墙设置,确保Hadoop所需的端口(如9000、50070等)是开放的。
  • 定期检查和维护集群,确保所有组件正常运行。

0