HDFS在CentOS上的配置步骤是什么

在CentOS上配置Hadoop分布式文件系统（HDFS）是一个涉及多个步骤的过程。以下是一个基本的配置步骤指南，基于CentOS 7或更高版本，使用Hadoop 3.x版本：

1. 环境准备

安装Java环境：

确保系统已安装合适的JDK版本，并配置好JAVA_HOME环境变量。

sudo yum install java-1.8.0-openjdk-devel
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export PATH=$PATH:$JAVA_HOME/bin

安装SSH：

确保所有节点之间可以通过SSH无密码登录。

sudo yum install openssh-server openssh-clients
sudo systemctl start sshd
sudo systemctl enable sshd
ssh-keygen -t rsa
ssh-copy-id root@node2
ssh-copy-id root@node3

配置网络：
- 修改主机名和IP地址映射。
- 设置静态IP地址和网关。
```
vi /etc/hosts
vi /etc/sysconfig/network-scripts/ifcfg-eth0
```
配置时间同步（可选）：
- 使用NTP服务同步所有节点的时间。
```
sudo yum install ntp
sudo systemctl start ntpd
sudo systemctl enable ntpd
```

2. 安装Hadoop

下载并解压Hadoop：

从Apache Hadoop官方网站下载对应版本的Hadoop发行包，并解压到指定目录。

wget https://downloads.apache.org/hadoop/core/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.4 /usr/local/hadoop

3. 配置Hadoop环境变量

编辑/etc/profile文件：

添加Hadoop的路径和环境变量。

vi /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

4. 配置Hadoop

配置core-site.xml：

配置HDFS的默认文件系统地址和临时目录。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
</configuration>

配置hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

配置mapred-site.xml（如果需要）：

配置MapReduce框架。

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置yarn-site.xml（如果需要）：

配置YARN资源管理器。

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>namenode</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5. 格式化NameNode

在NameNode节点上执行格式化命令：
```
hdfs namenode -format
```

6. 启动HDFS

在NameNode节点上启动HDFS服务：
```
sbin/start-dfs.sh
```

7. 验证HDFS

使用jps命令检查HDFS进程是否启动成功。
在浏览器中访问NameNode的Web界面（通常是http://namenode:50070）确认配置。

8. 配置防火墙（可选）

确保防火墙允许Hadoop使用的端口（默认是9000、50010、50020、50070、50075、50090）。

sudo firewall-cmd --permanent --zone=public --add-port=9000/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50010/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50020/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50070/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50075/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50090/tcp
sudo firewall-cmd --reload

9. 配置SSH无密码登录（可选）

确保所有节点之间可以通过SSH无密码登录。

以上步骤提供了一个基本的指南，具体的配置可能会因版本和环境的不同而有所差异。建议参考Hadoop官方文档进行详细配置。