centos如何解决k8s集群中的网络问题

CentOS环境下解决K8s集群网络问题的系统化方案

一、前置环境检查与配置

在解决K8s网络问题前，需确保CentOS节点的基础环境符合K8s网络要求，避免因环境配置不当引发问题：

关闭防火墙与SELinux：K8s网络依赖端口通信，防火墙（firewalld）和SELinux可能阻断流量。执行以下命令关闭：

systemctl stop firewalld && systemctl disable firewalld  # 关闭防火墙
setenforce 0 && sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config  # 关闭SELinux

禁用交换分区：K8s要求节点禁用交换分区（swap），否则可能导致Pod网络异常。执行：
```
swapoff -a && sed -i '/swap/s/#//' /etc/fstab  # 临时关闭并注释fstab中的swap行
```
配置静态IP与主机名：确保节点IP固定（避免DHCP变动），并通过/etc/hosts文件配置集群节点主机名映射（如192.168.1.100 k8s-master），避免DNS解析延迟。

二、常见网络问题及解决步骤

1. Pod间无法通信

现象：同一节点或跨节点的Pod无法通过IP直接通信（如ping失败）。
排查与解决：

检查CNI插件状态：CNI插件（如Flannel、Calico）是Pod网络的核心，需确保其Pod运行正常：
```
kubectl get pods -n kube-system | grep -E 'flannel|calico'
```
若插件Pod未处于Running状态，需查看其日志定位问题（如镜像拉取失败）：
```
kubectl logs <cni-pod-name> -n kube-system
```
验证跨节点路由：若使用Flannel的host-gw模式或Calico的BGP，需检查节点路由表是否包含跨节点Pod网段的路由：
```
ip route  # 查看是否有类似“10.244.1.0/24 via <node2-ip> dev eth0”的路由条目
```

检查防火墙规则：若节点防火墙开启，需放行CNI插件使用的端口（如Flannel的VXLAN端口UDP 8472、Calico的BGP端口TCP 179）：

iptables -L -n -v | grep DROP  # 查看是否有阻断流量的规则
firewall-cmd --add-port=8472/udp --permanent && firewall-cmd --reload  # 放行Flannel VXLAN端口

测试Pod网络：通过临时Pod（如busybox）测试Pod间连通性：

kubectl run -i --tty --rm debug --image=busybox -- sh
# 在临时Pod内执行：ping <目标Pod-IP> 或 nc -zv <目标Pod-IP> <端口>

2. Service的ClusterIP不可达

现象：Pod无法通过Service的ClusterIP访问其他服务（如nc -zv <cluster-ip> <port>失败）。
排查与解决：

检查Service配置：确认Service的selector与后端Pod的labels匹配，且ports配置正确：

kubectl describe svc <service-name> -n <namespace>  # 查看Selector和Endpoints
kubectl get endpoints <service-name> -n <namespace>  # 确认Endpoints列表不为空

检查kube-proxy状态：kube-proxy负责将Service的ClusterIP转换为Pod IP，需确保其在所有节点运行正常：

kubectl get pods -n kube-system | grep kube-proxy
kubectl logs <kube-proxy-pod-name> -n kube-system  # 查看是否有错误日志

重启kube-proxy：若kube-proxy异常，可在所有节点重启该服务：
```
systemctl restart kube-proxy
```

3. Pod访问外部网络超时

现象：Pod无法访问集群外部服务（如ping 8.8.8.8或curl example.com失败）。
排查与解决：

检查网络策略：若集群启用了NetworkPolicy，需确保没有策略阻止Pod出站流量（egress）：
```
kubectl get networkpolicy -n <namespace>  # 查看是否有拒绝egress的策略
```

测试外部连接：进入Pod内部直接测试外部IP（避免DNS问题）：

kubectl exec -it <pod-name> -n <namespace> -- bash
nc -zv 8.8.8.8 53  # 测试DNS端口

检查CoreDNS配置：若DNS解析失败，需确认CoreDNS Pod运行正常，且配置文件正确：

kubectl get pods -n kube-system | grep coredns
kubectl logs <coredns-pod-name> -n kube-system  # 查看是否有解析错误

4. 网络插件故障

现象：集群网络完全不可用（如Pod无法启动、Service无法创建）。
排查与解决：

查看插件Pod日志：网络插件（如Flannel、Calico）的Pod日志是定位问题的关键：
```
kubectl logs <cni-plugin-pod-name> -n kube-system
```

重新部署插件：若插件配置错误或版本不兼容，可删除并重新部署插件（以Flannel为例）：

kubectl delete -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml
kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml

检查插件版本兼容性：确保插件版本与K8s集群版本匹配（如Calico v3.24+支持K8s 1.27+），避免因版本不兼容导致问题。

三、日常维护建议

监控网络状态：使用kubectl top nodes、kubectl top pods监控节点和Pod的资源使用情况，及时扩容避免网络瓶颈。
备份CNI配置：定期备份/etc/cni/net.d/目录下的CNI配置文件（如10-calico.conflist），避免配置丢失。
升级组件：定期升级K8s集群、CNI插件及CentOS内核（建议升级至5.7.9以上），修复已知网络漏洞。

通过以上步骤，可系统化排查和解决CentOS环境下K8s集群的网络问题。需根据具体现象逐步定位，优先检查基础环境与插件状态，再深入分析路由、防火墙等配置。