实战

Claude Code Kubernetes 部署实战完全指南:AI 辅助 K8s 配置与故障排查(2026)

Claude Code 辅助 Kubernetes 部署的完整实战指南:生成生产级 Deployment/HPA/Ingress/RBAC 配置、分析 CrashLoopBackOff/OOMKilled 等 Pod 报错、多环境配置管理(Kustomize/Helm)、GitHub Actions CI/CD 自动部署与回滚,以及 Pod Pending/Service 不可访问的排错 Prompt 模板。

2026/3/274分钟 阅读ClaudeEagle

Kubernetes YAML 配置复杂、排错费时。 Claude Code 能生成生产级 K8s 配置、 分析 kubectl 报错,让 K8s 部署不再痛苦。

Claude Code 在 K8s 运维中的价值

擅长处理的 K8s 场景: 生成 Deployment/Service/Ingress/ConfigMap YAML 设计 HPA(水平自动扩缩容)策略 分析 Pod 报错(CrashLoopBackOff/OOMKilled 等) 设计 Helm Chart 结构 多环境(dev/staging/prod)配置管理 安全加固(RBAC/NetworkPolicy/PodSecurityContext)

场景一:从零生成完整部署配置

Prompt:

帮我写一个 Node.js API 服务的完整 K8s 部署配置: - 3 副本,滚动更新(最多 1 个不可用) - 环境变量从 ConfigMap 和 Secret 注入 - 健康检查(liveness/readiness,HTTP /health) - 资源限制(limit: 500m CPU / 512Mi 内存) - HPA:CPU > 70% 时自动扩容,最多 10 副本 - Service(ClusterIP)+ Ingress(带 TLS) - 命名空间:production

Claude Code 生成的 Deployment:

yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: api-server
  namespace: production
  labels:
    app: api-server
spec:
  replicas: 3
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxUnavailable: 1
      maxSurge: 1
  selector:
    matchLabels:
      app: api-server
  template:
    metadata:
      labels:
        app: api-server
    spec:
      containers:
      - name: api-server
        image: your-registry/api-server:latest
        ports:
        - containerPort: 3000
        envFrom:
        - configMapRef:
            name: api-server-config
        - secretRef:
            name: api-server-secrets
        resources:
          requests:
            cpu: "200m"
            memory: "256Mi"
          limits:
            cpu: "500m"
            memory: "512Mi"
        livenessProbe:
          httpGet:
            path: /health
            port: 3000
          initialDelaySeconds: 30
          periodSeconds: 10
          failureThreshold: 3
        readinessProbe:
          httpGet:
            path: /health/ready
            port: 3000
          initialDelaySeconds: 10
          periodSeconds: 5

HPA 配置:

yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: api-server-hpa
  namespace: production
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: api-server
  minReplicas: 3
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

场景二:分析 K8s 报错

Prompt 模板(将报错粘贴给 Claude Code):

kubectl describe pod api-server-xxx-yyy 输出如下, 帮我分析 CrashLoopBackOff 的根本原因: [粘贴 describe 输出] kubectl logs api-server-xxx-yyy 输出: [粘贴日志]

常见问题 Claude Code 能直接诊断:

  • CrashLoopBackOff:容器启动失败,分析日志找原因
  • OOMKilled:内存超限,建议调整 memory limit
  • ImagePullBackOff:镜像拉取失败,检查仓库权限
  • Pending:资源不足或 NodeSelector 不匹配

场景三:多环境配置管理

Prompt:

帮我设计一个 K8s 多环境配置方案(dev/staging/prod), 要求: - 镜像 tag 不同(dev: latest, prod: 具体版本号) - 副本数不同(dev: 1, prod: 3) - 环境变量不同(数据库地址等) - 不要复制粘贴三份相同的 YAML 推荐使用 Kustomize 或 Helm,给出完整目录结构

Claude Code 生成的 Kustomize 结构:

k8s/ base/ deployment.yaml service.yaml kustomization.yaml overlays/ dev/ kustomization.yaml # replicas=1, image=latest staging/ kustomization.yaml prod/ kustomization.yaml # replicas=3, image=v1.2.3

场景四:RBAC 安全配置

Prompt:

帮我配置 K8s RBAC: - 开发团队:只能读取 dev 命名空间的 Pod/Logs - 运维团队:可以操作 staging/prod 的 Deployment(但不能删除) - CI/CD 服务账号:只能更新 Deployment 的镜像

场景五:GitHub Actions CI/CD

Prompt:

写一个 GitHub Actions 工作流: - 构建 Docker 镜像,推送到 GitHub Container Registry - 用 kubectl 滚动更新 K8s Deployment - 部署后等待 rollout 成功,失败则自动回滚 - 只在 main 分支 push 时触发

高价值排错 Prompt

# Pod 一直 Pending kubectl get events -n production 输出如下: [粘贴输出] 为什么 Pod 一直处于 Pending 状态? # 服务无法访问 Service 配置如下:[粘贴] Pod 正在运行,但 curl Service ClusterIP 超时, 帮我排查网络问题。

来源:Anthropic Claude Code 官方文档 - docs.anthropic.com/en/docs/claude-code

相关文章推荐

实战AI 辅助 Code Review:用 Claude Code 让 PR 审查效率提升 3 倍用 Claude Code 做 AI 辅助代码审查完整指南:Pre-commit Hook 自动检查、PR Review 流程接入、自定义审查规则、与 GitHub Actions 集成、常见审查场景的 Prompt 模板,及人机协作最佳实践。2026/3/14实战Claude Code Hooks 实战:每次保存自动格式化、拦截危险命令、桌面通知Claude Code Hooks 实战教程:五个即用示例(桌面通知/文件自动格式化/危险命令拦截/压缩后上下文注入/配置变更审计)、Hook 配置位置(全局/项目/本地)、退出码含义(允许/上下文/阻止)、七大 Hook 事件速查表、Prompt-based AI 判断 Hook 进阶用法。2026/3/14实战Claude Code GitLab CI/CD 集成指南:@claude 触发 MR 自动化与 Bedrock/Vertex AI 企业配置Claude Code GitLab CI/CD 集成完整指南:事件驱动编排原理(@claude 触发/沙箱执行/MR 审批流)、两步快速配置(ANTHROPIC_API_KEY 掩码变量 + .gitlab-ci.yml Job)、AWS Bedrock OIDC 认证示例、Google Vertex AI Workload Identity 示例、CLAUDE.md CI 专用配置、安全最佳实践(掩码变量/分支保护/工具范围限制),以及三大常见问题排查。2026/3/5实战Claude Code Prisma ORM 实战完全指南:AI 辅助现代 TypeScript 数据库开发(2026)Claude Code 辅助 Prisma ORM 开发的完整实战指南:从需求直接生成 Prisma Schema(多表关系/@relation/@@index/枚举)、复杂查询生成(include/select/cursor分页)、Prisma 事务处理(原子操作/库存扣减)、安全的数据库 Migration 策略(生产环境不停机迁移)、N+1 查询问题排查与优化,覆盖 PostgreSQL/MySQL/SQLite 三种数据库。2026/3/27实战Claude Code WebSocket 实战完全指南:AI 辅助构建实时通信应用(2026)Claude Code 辅助 WebSocket 开发的完整实战指南:Node.js ws 库聊天室服务端(多房间/JWT鉴权/心跳检测)、React useWebSocket Hook(自动重连/指数退避/消息队列)、FastAPI WebSocket 实时协作后端、Redis pub/sub 多进程广播、Nginx WebSocket 反向代理配置,以及连接莫名断开和消息乱序的排查 Prompt 模板。2026/3/27实战Claude Code 命令行工具开发实战:用 AI 快速构建专业 CLI 工具Claude Code 辅助命令行工具(CLI)开发的完整实战指南:Python Click/Typer、Go Cobra、Rust Clap 技术栈选型、用 Claude Code 生成完整 CLI 项目结构(参数解析/子命令/全局选项)、交互式提示和彩色输出、配置文件管理、Shell 自动补全生成、跨平台打包(PyInstaller/goreleaser),以及发布到 PyPI/npm/Homebrew 的完整流程。2026/3/26