CentOS上HDFS配置指南

1. 准备工作

在开始配置前，请确保满足以下前提条件：

操作系统：CentOS 7或8（推荐使用稳定版本）；
Java环境：Hadoop依赖Java 8或更高版本（建议使用OpenJDK 8）；
网络配置：所有节点（NameNode、DataNode）之间能互相通信（需配置主机名与IP映射，如编辑/etc/hosts文件）；
防火墙：建议关闭防火墙或放行Hadoop相关端口（如50070、50010等）。

2. 安装Java环境

Hadoop运行需要Java支持，通过以下命令安装OpenJDK 8：

sudo yum install -y java-1.8.0-openjdk-devel

验证Java安装是否成功：

java -version

输出应包含java version "1.8.0_xxx"，表示安装正确。

3. 下载并解压Hadoop

从Apache Hadoop官方网站下载最新稳定版本（如3.3.4），解压到指定目录（如/usr/local）：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.4 /usr/local/hadoop  # 重命名便于管理

创建Hadoop数据存储目录（后续配置中会用到）：

sudo mkdir -p /usr/local/hadoop/data/namenode  # NameNode数据目录
sudo mkdir -p /usr/local/hadoop/data/datanode  # DataNode数据目录

修改目录权限，确保Hadoop用户（如hadoop或当前用户）有读写权限：

sudo chown -R $USER:$USER /usr/local/hadoop

4. 配置Hadoop环境变量

编辑/etc/profile.d/hadoop.sh文件（若不存在则创建），添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk  # Java安装路径（根据实际调整）
export HADOOP_HOME=/usr/local/hadoop              # Hadoop安装路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  # 添加Hadoop命令到PATH

使环境变量生效：

source /etc/profile.d/hadoop.sh

验证Hadoop安装：

hadoop version

输出应显示Hadoop版本信息，表示环境变量配置成功。

5. 配置SSH无密码登录

Hadoop节点间需要通过SSH无密码通信，步骤如下：

在NameNode节点生成SSH密钥对：

ssh-keygen -t rsa -P ""  # 按回车键使用默认路径和空密码

将公钥复制到所有DataNode节点（包括自身）：

ssh-copy-id $USER@namenode  # 替换为NameNode的主机名或IP
ssh-copy-id $USER@datanode1  # 替换为DataNode1的主机名或IP
ssh-copy-id $USER@datanode2  # 如有多个DataNode，依次添加

测试无密码登录：

ssh namenode  # 应无需输入密码即可登录
ssh datanode1

6. 配置HDFS核心文件

HDFS的主要配置文件位于$HADOOP_HOME/etc/hadoop/目录下，需修改以下两个核心文件：

6.1 配置`core-site.xml`

编辑core-site.xml，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>  <!-- NameNode的RPC地址，替换为实际主机名 -->
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/data</value>  <!-- Hadoop临时目录 -->
    </property>
</configuration>

6.2 配置`hdfs-site.xml`

编辑hdfs-site.xml，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>  <!-- 数据副本数（生产环境建议设置为3，单机环境可设为1） -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>  <!-- NameNode元数据存储路径 -->
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>  <!-- DataNode数据存储路径 -->
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>  <!-- 关闭权限检查（测试环境可关闭，生产环境建议开启） -->
    </property>
</configuration>

6.3 （可选）配置`yarn-site.xml`（若需使用YARN）

若需使用YARN作为资源管理器，编辑yarn-site.xml，添加以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>  <!-- MapReduce shuffle服务 -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

7. 格式化NameNode

首次启动HDFS前，必须格式化NameNode（此操作会初始化HDFS元数据）：

hdfs namenode -format

格式化完成后，会在dfs.namenode.name.dir指定的目录下生成元数据文件。

8. 启动HDFS集群

在NameNode节点上执行以下命令启动HDFS：

start-dfs.sh

启动后，可通过以下命令查看HDFS相关进程：

jps

输出应包含NameNode、DataNode等进程（若未显示，需检查日志文件$HADOOP_HOME/logs/中的错误信息）。

9. 验证HDFS状态

Web界面验证：打开浏览器，访问http://<namenode-ip>:50070（Hadoop 3.x版本为http://<namenode-ip>:9870），查看NameNode和DataNode的状态；
命令行验证：使用hdfs dfsadmin -report命令查看集群节点信息，确认DataNode已成功连接。

10. 常见问题排查

权限问题：确保hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir目录的权限正确（Hadoop用户有读写权限）；
端口冲突：检查Hadoop配置的端口（如9000、50070）是否被其他服务占用；
主机名解析：确保/etc/hosts文件中节点IP与主机名映射正确，避免节点间通信失败。

centos上hdfs配置指南

CentOS上HDFS配置指南

1. 准备工作

2. 安装Java环境

3. 下载并解压Hadoop

4. 配置Hadoop环境变量

5. 配置SSH无密码登录

6. 配置HDFS核心文件

6.1 配置`core-site.xml`

6.2 配置`hdfs-site.xml`

6.3 （可选）配置`yarn-site.xml`（若需使用YARN）

7. 格式化NameNode

8. 启动HDFS集群

9. 验证HDFS状态

10. 常见问题排查

最新问答

相关标签

centos上hdfs配置指南

CentOS上HDFS配置指南

1. 准备工作

2. 安装Java环境

3. 下载并解压Hadoop

4. 配置Hadoop环境变量

5. 配置SSH无密码登录

6. 配置HDFS核心文件

6.1 配置core-site.xml

6.2 配置hdfs-site.xml

6.3 （可选）配置yarn-site.xml（若需使用YARN）

7. 格式化NameNode

8. 启动HDFS集群

9. 验证HDFS状态

10. 常见问题排查

最新问答

相关标签

6.1 配置`core-site.xml`

6.2 配置`hdfs-site.xml`

6.3 （可选）配置`yarn-site.xml`（若需使用YARN）