Linux HDFS 指的是在 Linux 操作系统上运行的 HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)。
下面从概念、在 Linux 中的作用、常见使用方式几个方面说明:
HDFS 是一个分布式文件系统,是 Apache Hadoop 的核心组件之一,用于存储海量数据(TB / PB 级)。
特点:
Linux 是 HDFS 运行的底层操作系统:
一句话总结:
HDFS 跑在 Linux 上,用来管理多台 Linux 机器上的存储资源
在一套 Hadoop 集群中,Linux 服务器通常承担以下角色之一:
| 角色 | 说明 |
|---|---|
| NameNode | 管理文件系统的元数据(文件名、目录结构、块信息) |
| DataNode | 实际存储数据块 |
| Client | 提交读写请求的机器 |
hdfs dfsadmin -report
hdfs dfs -ls /
hdfs dfs -put localfile.txt /user/hadoop/
hdfs dfs -get /user/hadoop/localfile.txt ./
hdfs dfs -mkdir -p /user/hadoop/input
| 对比项 | Linux 本地文件系统 | HDFS |
|---|---|---|
| 范围 | 单台机器 | 多台机器 |
| 文件大小 | 任意 | 适合大文件 |
| 容错 | 靠硬件 | 自动副本 |
| 访问方式 | POSIX | 专用 API / HDFS 命令 |
如果你愿意,我可以:
你更想了解哪一部分?