Linux 服务器 CPU 性能排查方法
当服务器整体响应变慢、负载(load average)异常升高、QPS/吞吐下降、请求延迟抖动或用户反馈“卡顿”时,CPU 瓶颈 是最常见嫌疑之一。但“CPU 高”并不等于“CPU 就是瓶颈”——它可能是计算密集、锁竞争、上下文切换爆炸、调度延迟、虚拟化偷窃周期(steal)等不同子类的表现。 本文给出从快速判断 → 分类定位 → 深度剖析的完整、可操作排查路径,适用于物理机、虚拟机、容器宿主机场景(2026 年主流内核 6.6–6.12+)。 第一步:快速确认是否真的是 CPU 瓶颈(1–3 分钟) 跑以下命令组合,建立初步画像: 负载与运行队列uptime 或 cat /proc/loadavg → load average(1/5/15 min)持续 > 核数 × 1.5–2.5,且 runq-sz(运行队列长度) 高 → 有 CPU 相关等待 top / htop 概览(最重要第一屏) 按 1 查看每个核使用率 按 P 排序进程(Shift+P) 看 %Cpu(s) 行: us(用户态)+ sy(内核态)持续 > 80–90% id(idle) < […]