草草聊事

K8s 与云原生故障排查 · 系列目录

2026/06/18

2

K8s 与云原生故障排查 · 系列目录

叙事框架：容器排障的独特之处在于可见性缺失总计 78 篇，已发布 0 篇，78 篇待完善

一、Pod / 工作负载类

⏳ Pod 频繁重启：OOM 还是 Liveness 探针配置问题？
⏳ Pod 一直 Pending：从资源不足到 PVC 挂载层层排查
⏳ Pod 启动慢——Init Container / 镜像拉取策略优化
⏳ Pod 状态 CrashLoopBackOff：日志拿不到怎么办？
⏳ Pod 调度不均衡——nodeAffinity/podAntiAffinity 配置错误
⏳ DaemonSet 更新策略导致节点逐个宕机
⏳ Job/CronJob 未按预期执行——时区/并发策略/backoff 排查
⏳ HPA 扩缩容不灵敏——metrics 采集延迟和目标指标设错
⏳ VPA 推荐资源与实际情况偏差过大
⏳ PodDisruptionBudget 设太严导致节点维护无法腾空

二、网络类

⏳ K8s Service 访问不通：从 iptables 到 IPVS 逐层排查
⏳ K8s Ingress 配置错误导致外部无法访问服务
⏳ 跨 Namespace 服务调用：DNS 解析 + 网络策略双重排查
⏳ K8s 网络策略 NetworkPolicy 规则太严导致服务间通信失败
⏳ NodePort 端口冲突排查
⏳ Pod 内无法访问集群外网络——NAT/CNI 配置问题
⏳ Service Mesh（Istio）sidecar 注入后应用启动变慢
⏳ Istio 路由规则配置错误导致流量走向异常
⏳ K8s Gateway API 配置与 Ingress 兼容性排查
⏳ 集群 DNS 超时/抖动——CoreDNS 自动扩缩容配置不当
⏳ 节点级网络带宽限制——TC/CNI 流量整形问题
⏳ Cilium/eBPF CNI 模式下的网络排障特有工具链
⏳ 双栈（IPv4/IPv6）网络配置下的服务连通性问题

三、存储类

⏳ PersistentVolume 无法删除——资源回收状态排查
⏳ PV 挂载失败——存储插件/NFS/SAS 协议问题
⏳ StatefulSet 有状态服务 Pod 启动顺序导致的故障
⏳ 容器存储空间不足——emptyDir 和 hostPath 使用误区
⏳ CSI 驱动异常导致 PV 创建卡住
⏳ 动态存储类 StorageClass 参数配置错误
⏳ 本地 PV（local volume）节点亲和性导致 Pod 调度失败
⏳ 卷快照/克隆功能使用中的兼容性问题

四、集群 / 节点类

⏳ K8s 节点 NotReady 排查实录
⏳ kubelet 证书过期导致节点无法注册
⏳ etcd 性能瓶颈导致集群不稳定
⏳ 控制面组件（kube-apiserver/scheduler/controller-manager）异常排查
⏳ 集群 DNS（CoreDNS）解析失败或性能下降
⏳ 集群资源碎片化：节点资源充足但 Pod 调度失败
⏳ K8s 版本升级踩坑：从 kubeadm 升级到集群迁移
⏳ 节点内核版本不统一导致应用行为不一致
⏳ 节点备用（cordon/drain）操作导致现有 Pod 被驱逐
⏳ 污点和容忍度配置错误导致关键 Pod 被调度到错误节点
⏳ kube-proxy 模式切换（iptables→IPVS）引发的连接异常

五、资源管理类

⏳ 命名空间资源配额 ResourceQuota 设太严导致部署失败
⏳ LimitRange 默认资源限制导致 Pod 启动参数被覆盖
⏳ 服务质量类（Guaranteed/Burstable/BestEffort）选错导致 OOM 优先被杀
⏳ 集群资源超分导致节点压力过大
⏳ 节点资源预留（kube-reserved/system-reserved）配置不当

六、监控 / 可观测类

⏳ Metrics Server 部署失败排坑
⏳ K8s 日志收集方案（EFK/Loki）配置导致 Pod 日志丢失
⏳ 容器内 Java 应用监控指标不准——cgroup 视角的 CPU/内存误解
⏳ Prometheus 采集目标丢失——ServiceMonitor 配置排查
⏳ K8s Audit Log 未开启——安全事件无法溯源
⏳ 事件（Events）信息太多淹没有效告警

七、容器运行时类

⏳ 容器中 Java 进程 CPU 使用率不准——容器视角的 CPU 误解
⏳ 容器中 -Xmx 不生效？JVM 不能识别 cgroup 限制
⏳ 容器镜像太大导致拉取超时——镜像分层优化
⏳ 容器内文件系统性能问题——overlay2 vs aufs 选型
⏳ Docker/Containerd 运行时异常——daemon 日志排查
⏳ 镜像拉取策略 ImagePullPolicy 引发的版本不一致
⏳ 容器退出码（Exit Code）看不懂——137/139/143 分别代表什么
⏳ Init Container 资源占用过高阻塞后续容器启动

八、安全 / 权限类

⏳ RBAC 权限配置不当导致 CI/CD 部署失败
⏳ ServiceAccount 没配好导致 Pod 无法调用 API
⏳ PodSecurityPolicy/PSA 限制过严导致容器无法启动
⏳ 镜像安全扫描漏洞修复后镜像更新策略问题
⏳ Secret 加密存储（etcd 加密/KMS）配置排查
⏳ 容器以 root 运行的安全风险与配置检查

九、CI/CD / GitOps 类

⏳ Helm Chart 升级失败——values 覆盖顺序理解错误
⏳ K8s 滚动更新策略导致服务中断——maxSurge/maxUnavailable 设错
⏳ ConfigMap/Secret 更新后 Pod 不自动重启
⏳ ArgoCD 同步状态显示 OutOfSync——资源漂移排查
⏳ Kustomize overlay 层配置覆盖关系理解错误

十、集群运维类

⏳ 证书管理：kubelet/kube-apiserver 证书到期处理流程
⏳ 集群备份和恢复（Velero）失败排查
⏳ 节点内核升级后需要重启——Pod 迁移策略
⏳ 集群联邦（Cluster Federation）多集群管理问题
⏳ K8s 控制面高可用配置——多 apiserver 负载均衡排障
⏳ 集群网络 MTU 不一致导致 Pod 通信异常

最后更新：2026-06