Ubuntu HDFS集群搭建步骤详解

搭建一个Ubuntu HDFS集群涉及多个步骤，从基础安装到配置各个服务，再到启动集群。以下是一个详细的步骤指南：

1. 基础安装

更新系统软件包列表：
```
sudo apt update
```
安装必要的软件包：
```
sudo apt install vim ntpdate
```

2. 校准Linux系统时间

使用NTP服务校准系统时间：
```
sudo ntpdate cn.pool.ntp.org
```

3. 创建Hadoop用户

创建一个新用户并赋予sudo权限：

sudo adduser hadoop
sudo vi /etc/sudoers
# 将root那行复制后修改成hadoop,hadoop就有了root权限

4. 配置SSH免密登录

生成SSH密钥对：
```
ssh-keygen
```

将公钥复制到其他节点：

ssh-copy-id (your-slave-ip1)
ssh-copy-id (your-slave-ip2)
ssh-copy-id (your-slave-ip3)

5. 安装JDK

安装OpenJDK 8：

sudo apt-get install -y openjdk-8-jdk
sudo update-java-alternatives --set java-1.8.0-openjdk
java -version

配置Java环境变量：

vi ~/.bashrc
export JAVA_HOME /usr/lib/jvm/java-1.8.0-openjdk-amd64
export JRE_HOME ${JAVA_HOME}/jre
export CLASSPATH .:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH ${JAVA_HOME}/bin:$PATH
source ~/.bashrc

6. 下载并解压Hadoop

下载Hadoop 2.7.7安装包：

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
tar xvf hadoop-2.7.7.tar.gz

7. 配置Hadoop环境变量

编辑~/.bashrc文件，添加Hadoop环境变量：

export HADOOP_HOME /home/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin
source ~/.bashrc

8. 修改Hadoop配置文件

编辑core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hdata</value>
    </property>
</configuration>

编辑hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>(your-master-ip):50090</value>
    </property>
    <property>
        <name>dfs.datanode.fsdataset.volume.choosing.policy</name>
        <value>org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy</value>
    </property>
</configuration>

编辑mapred-site.xml：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

编辑yarn-site.xml：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>(your-master-ip)</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

9. 格式化NameNode

格式化NameNode：
```
hdfs namenode -format
```

10. 启动HDFS集群

启动HDFS服务：
```
cd $HADOOP_HOME/sbin
./start-dfs.sh
```

11. 验证集群状态

使用以下命令检查集群状态：
```
hdfs dfsadmin -report
```
访问NameNode的Web界面：
```
http://namenode-host:50070
```

注意事项

确保所有节点的配置文件一致。
检查防火墙设置，确保Hadoop所需的端口（如9000、50070等）是开放的。
定期检查和维护集群，确保所有组件正常运行。