CentOS Hadoop 性能怎样提升

CentOS系统基础优化

最小化安装与必要服务管理：选择CentOS最小化安装类型，仅安装Hadoop运行必需的软件包（如java、ssh等），避免不必要的系统服务占用资源；禁用SELinux（若无需强制访问控制），通过setenforce 0临时关闭，修改/etc/selinux/config永久生效；关闭防火墙（systemctl stop firewalld && systemctl disable firewalld）或配置允许Hadoop相关端口（如NameNode的9000、DataNode的50010等）。
内核参数调优：修改/etc/sysctl.conf优化网络与内存参数，提升系统吞吐量。关键配置包括：net.core.somaxconn = 65535（增大socket监听队列长度，避免连接拒绝）、net.ipv4.tcp_tw_reuse = 1（复用TIME_WAIT状态的连接，减少连接建立开销）、vm.swappiness = 0（禁用swap分区，防止Hadoop任务因内存不足频繁换页）、fs.file-max = 800000（增大系统最大文件描述符数）。执行sysctl -p使配置生效。
文件描述符限制：编辑/etc/security/limits.conf，添加以下内容永久提高用户（如hadoop）的文件描述符上限：hadoop hard nofile 65535、hadoop soft nofile 65535；同时修改/etc/pam.d/login，添加session required pam_limits.so，确保限制生效。

HDFS配置优化

NameNode内存与并发处理：根据集群规模调整NameNode内存，在hadoop-env.sh中设置HADOOP_NAMENODE_OPTS（如-Xmx8g，分配8GB堆内存）；增加NameNode处理DataNode心跳的并发线程数，修改hdfs-site.xml中的dfs.namenode.handler.count（建议值为20 * log2(集群节点数)，如10节点集群设置为60）。
DataNode多目录与块大小：为DataNode配置多个存储目录（dfs.datanode.data.dir），分散数据存储压力（如/data1/datanode,/data2/datanode）；调整HDFS块大小（dfs.block.size），根据数据访问模式选择（如顺序读场景设为256MB，随机读场景设为64MB），默认128MB适用于多数场景。
副本因子与回收站：根据数据重要性调整副本因子（dfs.replication），热数据设为3（默认），冷数据可降低至2以减少存储开销；启用HDFS回收站（core-site.xml中设置fs.trash.interval = 1440（1天）、fs.trash.checkpoint.interval = 120（2小时）），防止数据误删除。

YARN与MapReduce调优

内存与CPU资源分配：合理分配YARN容器资源，在yarn-site.xml中设置yarn.nodemanager.resource.memory-mb（节点可用内存，如32GB）、yarn.nodemanager.resource.cpu-vcores（节点可用CPU核心数，如8核）；调整Map/Reduce任务内存（mapreduce.map.memory.mb、mapreduce.reduce.memory.mb，如2GB/4GB）及JVM堆内存（mapreduce.map.java.opts、mapreduce.reduce.java.opts，如-Xmx1536m、-Xmx3072m），避免内存溢出。
资源调度器选择：使用高级调度器提升资源利用率，如Capacity Scheduler（按队列分配资源，适合多租户场景）或Fair Scheduler（动态分配资源，适合公平共享），在yarn-site.xml中配置yarn.resourcemanager.scheduler.class。
Shuffle与排序优化：增大Map任务Shuffle的环形缓冲区大小（mapreduce.task.io.sort.mb，如100MB），减少磁盘溢写次数；调整排序参数（mapreduce.task.io.sort.factor，如100），提高排序效率。

硬件与环境优化

高性能硬件选型：选择SSD替代HDD（提升HDFS读写速度，尤其是NameNode的元数据操作）；增加内存（建议每TB数据至少16GB内存，用于缓存数据）；配备多核CPU（如Intel Xeon系列，支持高并发任务处理）；提升网络带宽（如10Gbps以太网或InfiniBand，减少节点间数据传输延迟）。
数据本地化优化：增加DataNode数量，使数据块尽可能存储在任务运行的节点上（通过dfs.replication和机架感知策略dfs.network.script配置），减少网络传输开销。
小文件合并：小文件会增加NameNode的元数据负载，使用Hadoop Archive（HAR）或CombineFileInputFormat合并小文件，降低NameNode压力。

压缩与监控

数据压缩：启用中间结果和最终输出压缩，减少存储空间和网络传输量。在mapred-site.xml中设置mapreduce.map.output.compress = true、mapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec（Snappy压缩速度快，适合Hadoop场景）；最终输出压缩设置mapreduce.output.fileoutputformat.compress = true。
监控与调优：使用Hadoop自带工具（如ResourceManager、NodeManager Web UI）监控集群资源使用情况（CPU、内存、磁盘、网络）；部署第三方监控工具（如Prometheus+Grafana，可视化集群指标；Ganglia，监控大规模集群）；定期进行压力测试（如TestDFSIO测试HDFS读写性能、TeraSort测试MapReduce排序性能），识别瓶颈并针对性优化。

最新问答