草草聊事

K8s 与云原生故障排查 · 系列目录

2026/06/18
2
0

K8s 与云原生故障排查 · 系列目录

叙事框架:容器排障的独特之处在于可见性缺失 总计 78 篇,已发布 0 篇,78 篇待完善


一、Pod / 工作负载类

  • ⏳ Pod 频繁重启:OOM 还是 Liveness 探针配置问题?
  • ⏳ Pod 一直 Pending:从资源不足到 PVC 挂载层层排查
  • ⏳ Pod 启动慢——Init Container / 镜像拉取策略优化
  • ⏳ Pod 状态 CrashLoopBackOff:日志拿不到怎么办?
  • ⏳ Pod 调度不均衡——nodeAffinity/podAntiAffinity 配置错误
  • ⏳ DaemonSet 更新策略导致节点逐个宕机
  • ⏳ Job/CronJob 未按预期执行——时区/并发策略/backoff 排查
  • ⏳ HPA 扩缩容不灵敏——metrics 采集延迟和目标指标设错
  • ⏳ VPA 推荐资源与实际情况偏差过大
  • ⏳ PodDisruptionBudget 设太严导致节点维护无法腾空

二、网络类

  • ⏳ K8s Service 访问不通:从 iptables 到 IPVS 逐层排查
  • ⏳ K8s Ingress 配置错误导致外部无法访问服务
  • ⏳ 跨 Namespace 服务调用:DNS 解析 + 网络策略双重排查
  • ⏳ K8s 网络策略 NetworkPolicy 规则太严导致服务间通信失败
  • ⏳ NodePort 端口冲突排查
  • ⏳ Pod 内无法访问集群外网络——NAT/CNI 配置问题
  • ⏳ Service Mesh(Istio)sidecar 注入后应用启动变慢
  • ⏳ Istio 路由规则配置错误导致流量走向异常
  • ⏳ K8s Gateway API 配置与 Ingress 兼容性排查
  • ⏳ 集群 DNS 超时/抖动——CoreDNS 自动扩缩容配置不当
  • ⏳ 节点级网络带宽限制——TC/CNI 流量整形问题
  • ⏳ Cilium/eBPF CNI 模式下的网络排障特有工具链
  • ⏳ 双栈(IPv4/IPv6)网络配置下的服务连通性问题

三、存储类

  • ⏳ PersistentVolume 无法删除——资源回收状态排查
  • ⏳ PV 挂载失败——存储插件/NFS/SAS 协议问题
  • ⏳ StatefulSet 有状态服务 Pod 启动顺序导致的故障
  • ⏳ 容器存储空间不足——emptyDir 和 hostPath 使用误区
  • ⏳ CSI 驱动异常导致 PV 创建卡住
  • ⏳ 动态存储类 StorageClass 参数配置错误
  • ⏳ 本地 PV(local volume)节点亲和性导致 Pod 调度失败
  • ⏳ 卷快照/克隆功能使用中的兼容性问题

四、集群 / 节点类

  • ⏳ K8s 节点 NotReady 排查实录
  • ⏳ kubelet 证书过期导致节点无法注册
  • ⏳ etcd 性能瓶颈导致集群不稳定
  • ⏳ 控制面组件(kube-apiserver/scheduler/controller-manager)异常排查
  • ⏳ 集群 DNS(CoreDNS)解析失败或性能下降
  • ⏳ 集群资源碎片化:节点资源充足但 Pod 调度失败
  • ⏳ K8s 版本升级踩坑:从 kubeadm 升级到集群迁移
  • ⏳ 节点内核版本不统一导致应用行为不一致
  • ⏳ 节点备用(cordon/drain)操作导致现有 Pod 被驱逐
  • ⏳ 污点和容忍度配置错误导致关键 Pod 被调度到错误节点
  • ⏳ kube-proxy 模式切换(iptables→IPVS)引发的连接异常

五、资源管理类

  • ⏳ 命名空间资源配额 ResourceQuota 设太严导致部署失败
  • ⏳ LimitRange 默认资源限制导致 Pod 启动参数被覆盖
  • ⏳ 服务质量类(Guaranteed/Burstable/BestEffort)选错导致 OOM 优先被杀
  • ⏳ 集群资源超分导致节点压力过大
  • ⏳ 节点资源预留(kube-reserved/system-reserved)配置不当

六、监控 / 可观测类

  • ⏳ Metrics Server 部署失败排坑
  • ⏳ K8s 日志收集方案(EFK/Loki)配置导致 Pod 日志丢失
  • ⏳ 容器内 Java 应用监控指标不准——cgroup 视角的 CPU/内存误解
  • ⏳ Prometheus 采集目标丢失——ServiceMonitor 配置排查
  • ⏳ K8s Audit Log 未开启——安全事件无法溯源
  • ⏳ 事件(Events)信息太多淹没有效告警

七、容器运行时类

  • ⏳ 容器中 Java 进程 CPU 使用率不准——容器视角的 CPU 误解
  • ⏳ 容器中 -Xmx 不生效?JVM 不能识别 cgroup 限制
  • ⏳ 容器镜像太大导致拉取超时——镜像分层优化
  • ⏳ 容器内文件系统性能问题——overlay2 vs aufs 选型
  • ⏳ Docker/Containerd 运行时异常——daemon 日志排查
  • ⏳ 镜像拉取策略 ImagePullPolicy 引发的版本不一致
  • ⏳ 容器退出码(Exit Code)看不懂——137/139/143 分别代表什么
  • ⏳ Init Container 资源占用过高阻塞后续容器启动

八、安全 / 权限类

  • ⏳ RBAC 权限配置不当导致 CI/CD 部署失败
  • ⏳ ServiceAccount 没配好导致 Pod 无法调用 API
  • ⏳ PodSecurityPolicy/PSA 限制过严导致容器无法启动
  • ⏳ 镜像安全扫描漏洞修复后镜像更新策略问题
  • ⏳ Secret 加密存储(etcd 加密/KMS)配置排查
  • ⏳ 容器以 root 运行的安全风险与配置检查

九、CI/CD / GitOps 类

  • ⏳ Helm Chart 升级失败——values 覆盖顺序理解错误
  • ⏳ K8s 滚动更新策略导致服务中断——maxSurge/maxUnavailable 设错
  • ⏳ ConfigMap/Secret 更新后 Pod 不自动重启
  • ⏳ ArgoCD 同步状态显示 OutOfSync——资源漂移排查
  • ⏳ Kustomize overlay 层配置覆盖关系理解错误

十、集群运维类

  • ⏳ 证书管理:kubelet/kube-apiserver 证书到期处理流程
  • ⏳ 集群备份和恢复(Velero)失败排查
  • ⏳ 节点内核升级后需要重启——Pod 迁移策略
  • ⏳ 集群联邦(Cluster Federation)多集群管理问题
  • ⏳ K8s 控制面高可用配置——多 apiserver 负载均衡排障
  • ⏳ 集群网络 MTU 不一致导致 Pod 通信异常

最后更新:2026-06