Redis重要的健康指标有哪些

发布时间：2021-11-06 16:30:12 来源：亿速云阅读：173 作者：iii 栏目：web开发

# Redis重要的健康指标有哪些

## 引言

Redis作为高性能的内存数据库，在现代应用架构中扮演着关键角色。要确保Redis实例稳定运行并发挥最佳性能，必须持续监控其核心健康指标。本文将深入剖析Redis的六大类关键指标，帮助您构建全面的监控体系。

---

## 一、基础资源指标

### 1.1 内存使用情况
```bash
# 查看内存关键指标
redis-cli info memory

used_memory：Redis实际消耗的内存总量（字节）
used_memory_rss：操作系统角度显示的内存用量（常比used_memory高）
mem_fragmentation_ratio：内存碎片率（=rss/used_memory）
- >1.5 表明碎片严重
- <1.0 表示内存交换到磁盘

优化建议：定期执行MEMORY PURGE（Redis 4.0+）或重启实例

1.2 CPU利用率

# 获取CPU统计
redis-cli info cpu

used_cpu_sys：内核态CPU时间
used_cpu_user：用户态CPU时间
used_cpu_sys_children：后台进程系统CPU
used_cpu_user_children：后台进程用户CPU

异常场景：用户态CPU持续>90%可能表示存在复杂命令阻塞

二、性能指标

2.1 延迟监控

# 测量延迟基准
redis-cli --latency -h 127.0.0.1 -p 6379

平均延迟：通常应<1ms（本地网络）
最大延迟：警惕超过100ms的情况
延迟分布：使用redis-cli --latency-dist查看百分比分布

2.2 命令统计

# 获取命令调用信息
redis-cli info commandstats

关键指标示例：

cmdstat_get:calls=1245123,usec=8930456,usec_per_call=7.18

calls：命令调用次数
usec_per_call：每次调用耗时（微秒）
重点关注：O(N)复杂度命令的调用频率

三、持久化指标

3.1 RDB持久化

# RDB相关指标
redis-cli info persistence | grep -E "rdb_last|aof_enabled"

rdb_last_bgsave_status：上次保存状态（ok/err）
rdb_last_bgsave_time_sec：上次保存耗时
rdb_changes_since_last_save：上次保存后的修改次数

3.2 AOF持久化

# AOF相关指标
redis-cli info persistence | grep "aof_"

aof_current_size：AOF文件当前大小
aof_buffer_length：AOF缓冲区大小
aof_rewrite_in_progress：是否正在重写

配置建议：生产环境建议appendfsync everysec

四、主从复制指标

4.1 复制状态

# 主节点查看复制信息
redis-cli info replication

关键字段：

role:master
connected_slaves:2
slave0:ip=192.168.1.2,port=6379,state=online,offset=785642,lag=1

lag：从库延迟秒数（应）
master_repl_offset：主库复制偏移量
slave_repl_offset：从库复制偏移量

4.2 复制积压缓冲区

repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:747861

backlog_size：建议设置为平均网络延迟 * 写入速率 * 2

五、集群指标

5.1 集群状态

# 集群健康检查
redis-cli --cluster check 127.0.0.1:7001

cluster_state：ok表示集群健康
cluster_slots_assigned：已分配的槽位数
cluster_slots_ok：正常槽位数量

5.2 节点状态

# 查看节点详情
redis-cli cluster nodes

重点关注： - 节点角色（master/slave） - 连接状态（connected/disconnected） - 最后一次ping-pong时间

六、关键事件监控

6.1 慢查询日志

# 配置慢查询阈值（毫秒）
config set slowlog-log-slower-than 10
# 查看慢查询
slowlog get 5

输出示例：

1) 1) (integer) 14           # 日志ID
   2) (integer) 1632645127   # 时间戳
   3) (integer) 12543        # 耗时(微秒)
   4) 1) "KEYS"              # 命令
      2) "*"

6.2 过期键监控

expired_keys:1245            # 累计过期键数量
evicted_keys:0               # 因内存不足被驱逐的键数

监控方案实践

7.1 推荐工具组合

工具类型	推荐方案
指标采集	Prometheus + redis_exporter
可视化	Grafana
告警	AlertManager
日志分析	ELK Stack

7.2 关键告警规则示例

# Prometheus告警规则示例
- alert: HighMemoryUsage
  expr: redis_memory_used_bytes / redis_memory_max_bytes > 0.8
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "Redis内存使用超过80% (instance {{ $labels.instance }})"

结语

建立完善的Redis监控体系需要关注： 1. 资源使用（内存/CPU/磁盘） 2. 性能指标（延迟/吞吐量） 3. 持久化状态 4. 复制健康度 5. 集群稳定性 6. 异常事件跟踪

建议至少每周进行一次深度健康检查，并建立自动化监控告警机制。通过持续优化这些关键指标，可以确保Redis服务的高可用性和稳定性。

附录：常用监控命令速查表

> # 实时监控命令
> redis-cli --stat
> # 获取所有配置
> redis-cli config get *
> # 客户端列表
> redis-cli client list
> ```

向AI问一下细节