草草聊事
📚 全系列目录
📚 全系列目录
体系化知识专题 · 系列目录
面试转生产场景 · 系列目录
源码级排障 · 系列目录
K8s 与云原生故障排查 · 系列目录
Linux 系统排查基本功 · 系列目录
网络排查案例集 · 系列目录
消息中间件故障排除 · 系列目录
SQL 与数据库排障 · 系列目录
JVM 性能调优 · 系列目录
Java 并发疑难杂症 · 系列目录
Spring Boot 生产配置实战 · 系列目录
线上问题实战录 · 系列目录
关于
📚 全系列目录
📚 全系列目录
体系化知识专题 · 系列目录
面试转生产场景 · 系列目录
源码级排障 · 系列目录
K8s 与云原生故障排查 · 系列目录
Linux 系统排查基本功 · 系列目录
网络排查案例集 · 系列目录
消息中间件故障排除 · 系列目录
SQL 与数据库排障 · 系列目录
JVM 性能调优 · 系列目录
Java 并发疑难杂症 · 系列目录
Spring Boot 生产配置实战 · 系列目录
线上问题实战录 · 系列目录
关于
K8s 与云原生故障排查 · 系列目录
2026/06/18
2
0
0
K8s 与云原生故障排查 · 系列目录
叙事框架:容器排障的独特之处在于可见性缺失 总计 78 篇,已发布 0 篇,78 篇待完善
一、Pod / 工作负载类
⏳ Pod 频繁重启:OOM 还是 Liveness 探针配置问题?
⏳ Pod 一直 Pending:从资源不足到 PVC 挂载层层排查
⏳ Pod 启动慢——Init Container / 镜像拉取策略优化
⏳ Pod 状态 CrashLoopBackOff:日志拿不到怎么办?
⏳ Pod 调度不均衡——nodeAffinity/podAntiAffinity 配置错误
⏳ DaemonSet 更新策略导致节点逐个宕机
⏳ Job/CronJob 未按预期执行——时区/并发策略/backoff 排查
⏳ HPA 扩缩容不灵敏——metrics 采集延迟和目标指标设错
⏳ VPA 推荐资源与实际情况偏差过大
⏳ PodDisruptionBudget 设太严导致节点维护无法腾空
二、网络类
⏳ K8s Service 访问不通:从 iptables 到 IPVS 逐层排查
⏳ K8s Ingress 配置错误导致外部无法访问服务
⏳ 跨 Namespace 服务调用:DNS 解析 + 网络策略双重排查
⏳ K8s 网络策略 NetworkPolicy 规则太严导致服务间通信失败
⏳ NodePort 端口冲突排查
⏳ Pod 内无法访问集群外网络——NAT/CNI 配置问题
⏳ Service Mesh(Istio)sidecar 注入后应用启动变慢
⏳ Istio 路由规则配置错误导致流量走向异常
⏳ K8s Gateway API 配置与 Ingress 兼容性排查
⏳ 集群 DNS 超时/抖动——CoreDNS 自动扩缩容配置不当
⏳ 节点级网络带宽限制——TC/CNI 流量整形问题
⏳ Cilium/eBPF CNI 模式下的网络排障特有工具链
⏳ 双栈(IPv4/IPv6)网络配置下的服务连通性问题
三、存储类
⏳ PersistentVolume 无法删除——资源回收状态排查
⏳ PV 挂载失败——存储插件/NFS/SAS 协议问题
⏳ StatefulSet 有状态服务 Pod 启动顺序导致的故障
⏳ 容器存储空间不足——emptyDir 和 hostPath 使用误区
⏳ CSI 驱动异常导致 PV 创建卡住
⏳ 动态存储类 StorageClass 参数配置错误
⏳ 本地 PV(local volume)节点亲和性导致 Pod 调度失败
⏳ 卷快照/克隆功能使用中的兼容性问题
四、集群 / 节点类
⏳ K8s 节点 NotReady 排查实录
⏳ kubelet 证书过期导致节点无法注册
⏳ etcd 性能瓶颈导致集群不稳定
⏳ 控制面组件(kube-apiserver/scheduler/controller-manager)异常排查
⏳ 集群 DNS(CoreDNS)解析失败或性能下降
⏳ 集群资源碎片化:节点资源充足但 Pod 调度失败
⏳ K8s 版本升级踩坑:从 kubeadm 升级到集群迁移
⏳ 节点内核版本不统一导致应用行为不一致
⏳ 节点备用(cordon/drain)操作导致现有 Pod 被驱逐
⏳ 污点和容忍度配置错误导致关键 Pod 被调度到错误节点
⏳ kube-proxy 模式切换(iptables→IPVS)引发的连接异常
五、资源管理类
⏳ 命名空间资源配额 ResourceQuota 设太严导致部署失败
⏳ LimitRange 默认资源限制导致 Pod 启动参数被覆盖
⏳ 服务质量类(Guaranteed/Burstable/BestEffort)选错导致 OOM 优先被杀
⏳ 集群资源超分导致节点压力过大
⏳ 节点资源预留(kube-reserved/system-reserved)配置不当
六、监控 / 可观测类
⏳ Metrics Server 部署失败排坑
⏳ K8s 日志收集方案(EFK/Loki)配置导致 Pod 日志丢失
⏳ 容器内 Java 应用监控指标不准——cgroup 视角的 CPU/内存误解
⏳ Prometheus 采集目标丢失——ServiceMonitor 配置排查
⏳ K8s Audit Log 未开启——安全事件无法溯源
⏳ 事件(Events)信息太多淹没有效告警
七、容器运行时类
⏳ 容器中 Java 进程 CPU 使用率不准——容器视角的 CPU 误解
⏳ 容器中 -Xmx 不生效?JVM 不能识别 cgroup 限制
⏳ 容器镜像太大导致拉取超时——镜像分层优化
⏳ 容器内文件系统性能问题——overlay2 vs aufs 选型
⏳ Docker/Containerd 运行时异常——daemon 日志排查
⏳ 镜像拉取策略 ImagePullPolicy 引发的版本不一致
⏳ 容器退出码(Exit Code)看不懂——137/139/143 分别代表什么
⏳ Init Container 资源占用过高阻塞后续容器启动
八、安全 / 权限类
⏳ RBAC 权限配置不当导致 CI/CD 部署失败
⏳ ServiceAccount 没配好导致 Pod 无法调用 API
⏳ PodSecurityPolicy/PSA 限制过严导致容器无法启动
⏳ 镜像安全扫描漏洞修复后镜像更新策略问题
⏳ Secret 加密存储(etcd 加密/KMS)配置排查
⏳ 容器以 root 运行的安全风险与配置检查
九、CI/CD / GitOps 类
⏳ Helm Chart 升级失败——values 覆盖顺序理解错误
⏳ K8s 滚动更新策略导致服务中断——maxSurge/maxUnavailable 设错
⏳ ConfigMap/Secret 更新后 Pod 不自动重启
⏳ ArgoCD 同步状态显示 OutOfSync——资源漂移排查
⏳ Kustomize overlay 层配置覆盖关系理解错误
十、集群运维类
⏳ 证书管理:kubelet/kube-apiserver 证书到期处理流程
⏳ 集群备份和恢复(Velero)失败排查
⏳ 节点内核升级后需要重启——Pod 迁移策略
⏳ 集群联邦(Cluster Federation)多集群管理问题
⏳ K8s 控制面高可用配置——多 apiserver 负载均衡排障
⏳ 集群网络 MTU 不一致导致 Pod 通信异常
最后更新:2026-06