Linux 服务器负载异常的排查方法

Linux 服务器的 负载异常（load average 持续偏高）是线上最常见的告警类型之一，但很多人对它的理解存在误区：load 高 ≠ CPU 一定饱和，它反映的是系统整体任务需求与处理能力的失衡，而非单纯 CPU 使用率。

本文给出 2026 年生产环境中最实用、结构化的排查思路，分为快速判断 → 分类定位 → 深度分析 → 根因闭环四个阶段。

Linux load average（通过 uptime、top、cat /proc/loadavg 查看）是过去 1/5/15 分钟内处于可运行（running）或不可中断睡眠（uninterruptible sleep，通常是等待 IO）状态的任务平均数量。

关键点（Brendan Gregg 经典解释）：

它统计的是所有 CPU 核的总需求（running + waiting tasks）
理想值：load ≈ CPU 逻辑核数（单核 ≈1，多核按比例）
粗略经验阈值（仅参考）：
- load < 核数 × 0.7–1.0 → 健康
- load ≈ 核数 × 1.0–2.0 → 可接受，但需关注
- load > 核数 × 2.0–3.0 持续 → 过载，需要立即排查
- load > 核数 × 5–10+ → 严重过载，系统可能已经很卡

最重要一句话： load 高但 CPU 使用率（us+sy）不高 → 不是 CPU 计算瓶颈，而是大量任务在等待其他资源（最常见是 IO）

顺序	命令	核心看点（异常阈值）	初步分类（最可能瓶颈）
1	uptime 或 cat /proc/loadavg	load 1/5/15 值对比 CPU 核数（nproc 或 lscpu）	整体负载水平
2	top / htop（按 1 看多核）	%Cpu(s)：wa（iowait）>15–30%？us+sy 是否很高？	IO 等待 vs 计算密集
3	vmstat 1 5	r（运行队列）持续 > 核数×1.5–2？wa 高？b（阻塞进程）多？	运行队列饱和 vs IO 阻塞
4	mpstat -P ALL 1 5	每个核 %usr + %sys 是否均衡？st（steal）是否 >5–10%？	单核热点 vs 虚拟化偷周期

一句话画像模板（跑完这四条后写出来）：

“8 核机器，load 平均 28/35/32，vmstat r 持续 15–25，wa 28%，us+sy 仅 35%，st 2% → 大量进程在等待 IO，非 CPU 计算瓶颈”

排名	原因类型	典型特征（top/vmstat/iostat）	关键判断指标	常见业务场景
1	磁盘 IO 等待（最常见，占 60–80%）	wa/iowait >20–50%，%util 高，await >10–50ms	iostat -x %util 高 + await 高	数据库慢查询、日志狂写、binlog/WAL 同步写
2	大量可运行线程抢 CPU	us+sy 高（>70–90%），r（runq-sz）持续远超核数	vmstat r 列高，runq-sz > 核数×2–3	高并发计算、正则爆炸、死循环
3	锁竞争 / 线程阻塞	load 高，us+sy 不高，大量进程在 S/D 状态，cs 高	ps -eo state	grep ‘^[D]’ 多，cs >10k–50k/s
4	虚拟化偷周期（steal）	st >5–20%，宿主机超卖或 noisy neighbor	mpstat st 列持续高	云厂商超售、其他 VM 抢占 CPU
5	软中断 / 网络栈爆炸	sy 高（>30–60%），softirq 高，NET_RX / NET_TX 爆炸	cat /proc/softirqs，sar -I SUM	高 PPS DDoS、大量短连接、iptables 规则多
6	僵尸进程 / fork 炸裂	load 高，ps -ef	grep defunct 多，fork 失败日志	程序 bug 大量 fork 不回收

确认负载水平与 CPU 核数nproc 或 lscpu | grep “^CPU(s)” → 记住核数，作为 load 阈值基准
看 top / htop 第一屏
- wa 高 → 优先查 IO（下一步 iostat）
- us+sy 高 → 优先查 CPU 消耗进程（pidstat -u）
- 两者都不高 → 优先查等待/阻塞（ps D 状态 + vmstat cs）
iostat / iotop 确认 IO 等待iostat -xmdz 1 5 → %util / await 高？ sudo iotop -o → 实时看谁在读写磁盘最多
进程 / 线程级定位
- CPU 消耗：pidstat -u 1 5 | sort -k8 -nr | head
- IO 消耗：pidstat -d 1 5 | sort -k4 -nr | head
- 上下文切换：pidstat -w 1 5
- D 状态进程：ps -eo pid,ppid,state,cmd | grep ‘ D’
虚拟化 / 容器特殊检查
- mpstat -P ALL 1 5 看 st（steal）
- 容器内：cat /proc/pressure/cpu（PSI 压力指标）
日志与 dmesg 交叉验证journalctl -k -p warning..crit 或 dmesg | grep -i “error\|oom\|softlockup\|rcu”

临时缓解（争取时间）：

长期优化：

一句话核心思维：

“load 高，先看 wa/iowait 和 runq-sz，再分清是计算饱和、IO 等待还是阻塞等待，最后定位具体进程/资源”

跑完 uptime → top → vmstat → iostat → pidstat 这五条，基本就能把 85% 的负载异常原因分类清楚。