Node.js 应用在 Linux 上如何实现高可用架构

Node.js 应用在 Linux 上实现高可用架构的核心路径

1. 多进程集群化：充分利用服务器多核资源

Node.js 内置的 cluster 模块是实现高可用的基础，通过创建主进程（Master）和工作进程（Worker），让多个 Worker 共享同一端口处理请求，避免单进程瓶颈。主进程负责管理 Worker 的生命周期（如 fork 新进程、监控退出事件），当某 Worker 崩溃时，主进程可快速重启替代进程，保障服务连续性。
示例代码：

const cluster = require('cluster');
const http = require('http');
const numCPUs = require('os').cpus().length;

if (cluster.isMaster) {
  console.log(`主进程 ${process.pid} 启动`);
  // 根据 CPU 核心数 fork 工作进程
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }
  cluster.on('exit', (worker, code, signal) => {
    console.log(`工作进程 ${worker.process.pid} 异常退出，正在重启...`);
    cluster.fork(); // 自动重启崩溃的 Worker
  });
} else {
  // 工作进程启动 HTTP 服务
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end('Hello from Worker ' + process.pid + '\n');
  }).listen(3000);
  console.log(`工作进程 ${process.pid} 启动`);
}

这种方式可有效提升应用吞吐量（如 4 核 CPU 可同时处理 4 个请求），并为后续高可用架构奠定基础。

2. 负载均衡：分发流量到多个应用实例

通过负载均衡器将客户端请求分发到多个 Node.js 实例（集群），避免单实例过载。常用工具包括 Nginx（高性能、易配置）和 HAProxy（专业负载均衡）：

Nginx 配置示例：

upstream node_app {
  server 127.0.0.1:3000; // 多个 Node.js 实例地址
  server 127.0.0.1:3001;
  server 127.0.0.1:3002;
}
server {
  listen 80;
  location / {
    proxy_pass http://node_app;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
  }
}

HAProxy 配置示例：

frontend http_front
  bind *:80
  default_backend http_back
backend http_back
  balance roundrobin # 轮询策略
  server node1 127.0.0.1:3000 check # 健康检查
  server node2 127.0.0.1:3001 check

负载均衡器还支持健康检查（如 Nginx 的 ngx_http_health_check_module、HAProxy 的 check 指令），自动剔除异常实例，确保流量仅分发到健康节点。

3. 进程管理与自动恢复：保障进程稳定性

使用 PM2（Node.js 进程管理器）实现进程守护、自动重启和负载均衡。PM2 不仅能管理单个应用实例，还能通过 cluster 模式启动多进程（等同于 cluster 模块的功能，但更易操作）：

# 全局安装 PM2
npm install pm2 -g

# 启动应用（自动 fork 到多个 CPU 核心）
pm2 start app.js -i max

# 查看应用状态
pm2 status

# 设置开机自启动（避免服务器重启后进程丢失）
pm2 startup
pm2 save

PM2 还提供日志管理（pm2 logs）、性能监控（pm2 monit）等功能，简化运维流程。

4. 数据高可用：确保数据一致性与持久性

若应用依赖数据库或缓存，需确保数据层的高可用：

关系型数据库（如 MySQL）：采用主从复制（Master-Slave）架构，主库负责写操作，从库同步主库数据并处理读操作。配置主从复制后，当主库故障时，可通过脚本或工具（如 MHA）将从库提升为新主库。
NoSQL 数据库（如 MongoDB）：使用副本集（Replica Set），包含多个数据节点（Primary + Secondary），自动实现数据同步和故障转移（如 Primary 节点宕机时，Secondary 节点自动选举为新 Primary）。
分布式缓存（如 Redis）：通过Redis Cluster实现数据分片和高可用，每个分片有多个副本，确保缓存数据不丢失。

5. 监控与告警：提前发现问题

建立完善的监控体系，实时跟踪应用、服务器和数据库的状态，及时触发告警：

系统监控：使用 Prometheus（采集指标）+ Grafana（可视化）监控服务器 CPU、内存、磁盘使用率，以及 Node.js 应用的请求量、响应时间、错误率。
日志管理：使用 ELK Stack（Elasticsearch + Logstash + Kibana）集中收集和分析应用日志，快速定位错误（如通过 winston 或 pino 记录结构化日志）。
告警工具：集成 Alertmanager（Prometheus 生态）或 PagerDuty，当监控指标超过阈值（如 CPU 使用率 > 80%、应用错误率 > 1%）时，通过邮件、短信或 Slack 发送告警。

6. 容器化与编排：提升部署灵活性

使用 Docker 容器化 Node.js 应用，通过 Kubernetes（K8s）编排管理容器，实现自动扩缩容、滚动更新和故障转移：

Dockerfile 示例：

FROM node:18
WORKDIR /app
COPY package*.json ./
RUN npm install
COPY . .
EXPOSE 3000
CMD ["node", "app.js"]

Docker Compose 示例：

version: '3'
services:
  node_app:
    build: .
    ports:
      - "3000"
    deploy:
      replicas: 3 # 启动 3 个副本
      restart_policy:
        condition: on-failure # 容器崩溃时自动重启

Kubernetes 配置：通过 Deployment 管理 Node.js 副本，使用 Service 暴露服务，通过 Horizontal Pod Autoscaler（HPA）根据 CPU 使用率自动调整副本数量（如 CPU > 70% 时扩容至 5 个副本）。
容器化架构提升了部署的一致性，编排工具则增强了系统的自愈能力（如节点故障时自动重启容器）。

7. 健康检查：确保流量分发到健康实例

在负载均衡器中配置健康检查，定期检测 Node.js 实例的可用性（如访问 /health 接口），当实例无法响应或响应超时时，自动将其从负载均衡池中剔除，避免将流量发送到故障节点。

Nginx 健康检查：需安装 ngx_http_health_check_module，配置如下：

upstream node_app {
  server 127.0.0.1:3000 max_fails=3 fail_timeout=30s; # 3 次失败后剔除，30 秒后重试
  server 127.0.0.1:3001 max_fails=3 fail_timeout=30s;
}

HAProxy 健康检查：通过 check 指令实现：

backend http_back
  balance roundrobin
  server node1 127.0.0.1:3000 check inter 2000 rise 2 fall 3 # 每 2 秒检查一次，2 次成功视为健康，3 次失败视为异常

健康检查是负载均衡的重要补充，确保流量仅分发到可用实例。