CentOS系统如何优化K8S部署性能

节点资源升级：根据工作负载需求增加CPU核心数、内存容量（如计算密集型任务优先提升CPU，内存密集型任务提升内存），使用高性能SSD/NVMe存储提升IO性能（避免机械硬盘成为瓶颈）。
专用节点分离：将控制平面（Master）与工作节点（Worker）分开部署，减少相互干扰；针对GPU计算任务（如AI/ML）配置专用GPU节点。
NUMA架构感知：若服务器支持NUMA，配置Kubernetes节点为NUMA感知模式，优化内存访问效率（避免跨NUMA节点内存访问延迟）。

文件句柄与网络栈：增加fs.file-max（如1048576）以允许更多文件句柄，避免“too many open files”错误；调整net.ipv4.ip_local_port_range（如1024-65535）扩大源端口范围，net.core.somaxconn（如65535）增加监听队列长度，net.ipv4.tcp_tw_reuse=1启用TIME_WAIT连接复用，减少连接建立开销。
内存管理：设置vm.swappiness=10（降低交换空间使用，优先使用物理内存），vm.overcommit_memory=1（允许内核过度分配内存，提升内存利用率）。
网络性能：调整net.core.netdev_max_backlog（如10000）增加网络设备队列长度，net.netfilter.nf_conntrack_max（如10485760）扩大连接跟踪表大小（应对高并发连接）。

kube-apiserver：调整--max-requests-inflight=3000（并发非变更请求数）、--max-mutating-requests-inflight=1000（并发变更请求数），避免请求过载；配置足够CPU/内存资源（如CPU≥4核、内存≥8GB）。
kube-controller-manager：优化--controllers（如并行运行的控制器数量）、--queue-length（如1000）提升控制器处理效率。
kube-scheduler：调整--kube-api-qps=100（API调用QPS）、--kube-api-burst=150（突发QPS），加快Pod调度速度。
kubelet：设置--image-gc-high-threshold=85（镜像使用率达85%触发垃圾回收）、--image-gc-low-threshold=80（回收至80%以下），减少镜像占用；调整--eviction-hard（如memory.available<500Mi）控制节点驱逐策略，避免节点过载。

高效CNI插件：使用Calico或Cilium替代默认Flannel，提升网络性能（如Calico的IP-in-IP模式减少封装开销）；配置MTU=1450（适配Overlay网络，避免分片）。
kube-proxy优化：在大规模集群中启用IPVS模式（--proxy-mode=ipvs），替代默认iptables模式，提升负载均衡性能（处理百万级连接更高效）；调整--conntrack-max（如1048576）扩大连接跟踪表，--conntrack-tcp-timeout=30s优化连接超时。
网络策略：合理定义NetworkPolicy，限制不必要的Pod间通信（如仅允许同命名空间或特定标签的Pod通信），减少网络流量。

高性能存储选择：使用SSD/NVMe作为持久卷（PV）介质，或部署分布式存储系统（如Ceph、GlusterFS），提升IO吞吐量（如Ceph的RADOS块设备支持高并发读写）。
存储配置：开启StorageClass动态供应，根据工作负载需求自动选择存储类型（如ssd、hdd）；设置PV的accessModes（如ReadWriteOnce、ReadOnlyMany）和reclaimPolicy（如Delete、Retain），合理管理存储资源。

资源请求与限制：为Pod设置合理的resources.requests（如CPU=250m、内存=64Mi）和resources.limits（如CPU=500m、内存=128Mi），避免资源争用（如多个Pod竞争同一节点资源导致性能下降）。
水平Pod自动伸缩（HPA）：配置HPA根据CPU/内存使用率（如targetCPUUtilizationPercentage=80）自动调整Pod副本数，应对流量波动（如电商大促期间自动扩容）。
Init Containers：将初始化任务（如数据库连接检查、配置文件生成）放在Init Containers中，减少主容器启动时间（主容器仅在Init Containers完成后启动）。

监控工具：使用Prometheus+Grafana监控集群性能指标（如CPU使用率、内存占用、网络带宽、Pod调度延迟），及时发现瓶颈（如某节点CPU使用率持续高于80%需扩容）。
日志管理：使用ELK（Elasticsearch+Logstash+Kibana）或Fluentd收集、分析日志，快速定位问题（如应用错误日志激增需排查代码bug）。
性能测试：使用K6、Locust等工具进行负载测试，模拟高并发场景（如1000并发用户），识别性能瓶颈（如API Server响应延迟高需调整max-requests-inflight）。

关闭不必要的服务：禁用SELinux（setenforce 0）和防火墙（systemctl stop firewalld）以减少系统开销（生产环境需评估安全风险）；关闭Swap分区（swapoff -a并注释/etc/fstab中的Swap条目），提升内存使用效率。
系统更新：定期更新Kubernetes及相关组件（如kubelet、kube-apiserver）到最新稳定版本，获取性能改进和安全修复（如修复已知的内存泄漏问题）。
镜像优化：使用轻量级基础镜像（如Alpine Linux，体积约5MB），减少镜像拉取时间和存储占用；添加imagePullPolicy: IfNotPresent，避免重复拉取本地已有镜像。

最新问答