CentOS消息推送速度慢怎么办

CentOS 消息推送变慢的排查与优化清单

一先快速定位瓶颈

明确“慢”的类型：是首包延迟高、吞吐上不去，还是偶发抖动。用基础工具建立基线：
- CPU/内存/磁盘/网络：top、htop、vmstat 1、iostat -x 1、sar -n DEV 1
- 网络时延与带宽：qperf 对测 RTT/带宽（示例：qperf <server_ip> tcp_bw/tcp_lat）
- 连接与队列：ss -s、netstat -s、ip -s link
- 消息队列自身监控：如 RabbitMQ 管理界面/HTTP API 观察队列积压、确认耗时、消费者数量与 prefetch；Kafka 观察 broker 入/出队速率、请求耗时、分区数与 ISR 等
做一次最小化压测（固定消息大小与并发），记录 P50/P95/P99 延迟与吞吐，便于调参前后对比

二系统与网络层优化

文件描述符与进程限制
- 提高进程可打开文件数：ulimit -n 65535；在 systemd 服务单元中设置 LimitNOFILE=65535
TCP 与连接优化（/etc/sysctl.conf，执行 sysctl -p 生效）
- 典型值：net.core.somaxconn=65535；net.ipv4.tcp_max_syn_backlog=65535；net.ipv4.ip_local_port_range=1024 65535；net.ipv4.tcp_tw_reuse=1；net.ipv4.tcp_fin_timeout=30
内核消息队列（若使用 System V/POSIX 消息队列）
- 提升单条与队列上限：kernel.msgmax=65536；kernel.msgmnb=65536
- 提升并发队列数：kernel.msgmni=1024
内存与 I/O
- 适度降低换页倾向：vm.swappiness=10
- 存储优先使用 SSD；如为机械盘，可结合 I/O 调度与队列深度优化
网络硬件与驱动
- 确认启用网卡多队列（RSS/多队列），中断绑核（如 irqbalance/手动 smp_affinity），提升高并发网络下的处理并行度

三消息队列与应用层优化

选型与并行度
- 高吞吐大数据：优先 Kafka（分区并行、顺序写）
- 复杂路由与灵活交换：选择 RabbitMQ
- 超低延迟嵌入式：考虑 ZeroMQ
RabbitMQ 要点
- 消费者并发与预取：prefetch_count 常见 100–300；按负载逐步调优
- 持久化权衡：非关键路径可关闭队列/消息持久化（queue.durable=false、message.persistent=false）以降低 I/O
- 内存与流控：设置 memory_high_watermark，避免 OOM 与阻塞
Kafka 要点
- 分区数：按吞吐与并发目标设置，常见为 broker 数的 2–3 倍
- 线程与 I/O：server.properties 中适度提高 num.network.threads（如 8）与 num.io.threads
应用侧通用优化
- 采用异步生产/消费、批量提交与压缩（如 snappy/gzip）
- 减少同步落库与重计算，使用连接池、本地缓存与背压控制
- 推送策略优化：对海量在线用户，先推送未读数/摘要，再按需拉取内容，降低带宽与处理峰值

四常见场景与对策

邮件类推送（Sendmail/Postfix）首次发送很慢
- 检查本机解析与回环映射：/etc/hosts 确保 127.0.0.1 包含本机 hostname；/etc/sysconfig/network 的 HOSTNAME 一致
- 验证 DNS 解析路径与反向解析时延，必要时使用本地缓存或优化 DNS 服务器
外域邮件被灰名单导致“首次延迟”
- 理解灰名单会先拒收 2 次再接收；对业务关键域名可协调对方放行或调整策略，降低首次投递延迟

五验证与回退

每次只变更一个变量，用压测与监控对比 P50/P95/P99 与吞吐，确认收益后再继续
保留回退方案：备份原始配置（sysctl.conf、rabbitmq.conf/kafka server.properties、systemd unit 等），变更失败可快速恢复
在灰度/低峰时段实施，观察至少一个业务高峰周期，确认稳定性后再全量上线

最新问答