定位与评估步骤
常见瓶颈与对应优化
| 瓶颈维度 | 典型症状 | 快速验证 | 优化要点 |
|---|---|---|---|
| 网络带宽/延迟 | 节点间传输吞吐上不去、作业本地性低 | 监控 eth0 带宽、ping RTT、作业本地性报表 | 升级至 10Gbps+、启用 Jumbo Frames、优化 TCP 参数;提升数据本地性、减少跨节点传输 |
| 磁盘 I/O | 读写延迟高、iostat await 大、IOPS 打满 | iostat -x 1、观察磁盘利用率 | 采用 SSD、合理 RAID、优化 I/O 调度器(SSD 优先 noop)、增加 DataNode 多目录 分散 I/O |
| NameNode 元数据 | 作业提交慢、UI 响应卡顿、fsimage 膨胀 | NameNode GC 日志、堆使用、RPC 排队 | 增大 NameNode 堆 与 dfs.namenode.handler.count、合并/归档 小文件、必要时 HDFS Federation 扩展命名空间 |
| DataNode 并发 | 大作业吞吐不达预期、线程瓶颈 | DataNode 线程与网络利用率 | 提高 dfs.datanode.handler.count、启用 短路读取 dfs.client.read.shortcircuit、保障磁盘与网络队列 |
| 参数与块大小 | 顺序读写不达标、小文件多 | 核对 dfs.blocksize、dfs.replication | 顺序/大文件场景增大 dfs.blocksize(如 256MB);按可靠性与成本设置 副本数(常用 3);避免小文件或归档合并 |
| 数据本地性与均衡 | 部分节点热点、整体吞吐受限 | 调度器本地性统计、balancer 状态 | 运行 均衡器 定期均衡数据、优化调度策略提升本地读比例 |
关键配置与操作系统优化
实施顺序与验证