温馨提示×

centos dopra如何实现集群管理

小樊
34
2025-12-15 19:35:05
栏目: 智能运维

术语澄清与总体思路dopra”并非常见的高可用或集群管理工具名,通常是输入误差或特定厂商内部术语。在 CentOS 上实现集群管理,业界通用做法是采用 Pacemaker + Corosync 作为高可用集群栈,配合 pcs 进行集群配置与日常管理,必要时叠加 HAProxy/LVS 做负载均衡与流量接入。该方案适用于数据库、应用服务、虚拟 IP 漂移等典型 HA 场景。

架构与组件

  • Corosync:负责集群成员通信、心跳与 Quorum(法定票数) 判定,保证节点间一致性与分区容忍。
  • Pacemaker:集群资源管理器(CRM),负责资源的启动、停止、迁移与故障恢复。
  • pcs:命令行工具,用于节点认证、集群创建、属性设置与日常运维。
  • fence/STONITH:隔离故障节点,防止脑裂;生产环境建议启用,测试环境可临时关闭。
  • VIP + 负载均衡:通过 虚拟 IP(VIP) 承接前端流量,结合 HAProxy/LVS 实现服务分发与健康检查。

快速落地步骤

  • 环境准备
    • 至少准备 2 台 CentOS 7/8 节点,配置 主机名解析(/etc/hosts)NTP/chrony 时间同步、并打通管理网与业务网通信。
    • 防火墙放行高可用服务或所需端口(见下文“网络与安全”)。
  • 安装集群软件
    • 在所有节点执行:yum install -y pacemaker corosync pcs fence-agents-all
    • 启动并开机自启:systemctl enable --now pcsd
    • 为集群用户设置密码:passwd hacluster
  • 建立集群
    • 节点认证:pcs cluster auth node1 node2
    • 创建集群:pcs cluster setup --start --name mycluster node1 node2
    • 启用集群服务:pcs cluster enable --all
  • 基础资源配置
    • 创建 VIP(示例):pcs resource create vip ocf:heartbeat:IPaddr2 ip=192.168.10.100 cidr_netmask=24 op monitor interval=20s
    • 如未配置 STONITH,临时关闭以通过校验:pcs property set stonith-enabled=false
  • 验证与常用操作
    • 查看状态:pcs statuspcs cluster statuscrm_mon -1
    • 资源迁移:pcs resource move vip node1(将 VIP 迁移至 node1)
    • 启停与清理:pcs cluster stop/start/enable --allpcs resource cleanup

网络与安全

  • 防火墙
    • 放行高可用服务:firewall-cmd --permanent --add-service=high-availability && firewall-cmd --reload
    • 如启用业务端口(如 HTTP 80),一并放行:firewall-cmd --permanent --add-service=http && firewall-cmd --reload
    • 或按端口放行(示例):firewall-cmd --permanent --add-port=2224/tcp(pcsd)、--add-port=5404-5406/udp(corosync)、--add-port=3121/tcp(pacemaker 可选)
  • SELinux
    • 测试环境可临时:setenforce 0 并将 /etc/selinux/config 中设为 SELINUX=permissive/disabled;生产环境建议保持 enforcing 并配置相应策略。

生产级建议

  • 仲裁与节点数
    • 建议 奇数节点(如 3/5),满足 Quorum 避免脑裂;双节点需谨慎评估脑裂风险与业务容忍度。
  • STONITH 与隔离
    • 生产务必配置 fence/STONITH(如 IPMI、redfish、vmware-fencing 等),确保故障节点被可靠隔离;测试环境才临时关闭。
  • 资源约束与粘性
    • 使用 资源组(group) 保证启停顺序,配置 colocation(亲和)/order(顺序)/location(位置偏好) 约束,提升稳定性与可预期性。
  • 共享存储
    • 如涉及共享卷,可采用 LVM + CLVM/HALVMDRBD,由集群统一管理激活与挂载,避免并发访问冲突。
  • 监控与告警
    • 结合 crm_mon、日志与 Prometheus + Alertmanager 等实现可视化与主动告警;定期演练故障切换与恢复流程。

0