监控服务器

📌 指标分析

系统平均负载，CPU在一段时间内的使用量。

一般来说，系统平均负载超过CPU核数数倍时，视为异常。

交互按键:

每个CPU核心使用情况:

load average - 平均负载，有3个数值，分别代表1、5、15分钟内的平均负载。

若数值递减，说明系统压力逐渐增大。若值大于等于CPU核数，说明超负荷。

除了看cpu使用量，还需要看等待（非IO等待）；当超负荷运行时，等待/阻塞的进程就明显较多。

pidstat看用户进程的CPU占用，其中%wait代表进程等待，包括IO等待、锁竞争等待、资源等待、同步等待。

若怀疑是IO等待，需结合iostat等工具进一步确认。

场景分析:

当CPU使用率高，平均负载低（(使用+等待)/核数），说明当前进程正在使用占多数，等待的少，此时找cpu占用高的进程进行分析（如java应用、db、redis等）。
当CPU使用率低，平均负载高，说明当前进程正在等待占多数。等待需要区分计算密集型、IO密集型。
当两者都高，说明使用、等待的进程都多，也是找cpu占用高的进程进行分析。

free -h
查看内存使用情况

交互区，当机器内存不足时会使用，且性能会下降。一般都禁用swap区。

vmstat 1 5
si - swap in，从swap区读到内存
so - swap out，从内存写到swap区

宽带: 如100兆，即100mbps或100m bit/s

带宽: 上述宽带换算为带宽，即100Mbps / 8 = 12.5MB/s

常用命令包括:

安装运行

# 前俩是否必须待确认
#sudo yum install -y epel-release
#sudo yun install -y sysstat
# 使用yum能自动安装依赖
sudo yum install -y stress

# 模拟8个进程加压
stress -c 8 --timeout 600

# 模拟IO压力，单个进程不断执行sync（内存映射到磁盘）
stress -i 1 --timeout 600

CPU高但其他资源无瓶颈，说明系统瓶颈在“计算密集型任务”，常见原因包括：

分析步骤

top -p <pid>聚焦指定进程，找CPU占用高的进程。
top -H -p <pid>显示进程内线程，找到CPU占用高的线程。
使用Arthas的trace命令，定位到具体方法。
验证GC情况：jstat -gc <pid> 1000每1秒输出GC统计；FGC-Full GC次数、FGCT-Full GC时间，计算是否频繁（如每分钟多次FGC）。

当双核CPU负载200%，意味着两个核心满负荷运行，若应用是多线程/并行计算（如Java线程池处理大量请求），且TPS稳定、响应时间正常，则是合理的（充分利用多核资源）。

但TPS未随着CPU负载而增加，且响应时间异常长，则存在问题：

线程竞争剧烈，大量线程争夺同一锁，导致上下文切换频繁
vmstat 1看上下文切换次数（cs指标）：若cs远高于正常水平（如>10000次/秒），说明线程竞争剧烈。
频繁GC占用CPU
jstat -gc <pid> 1000每1秒输出GC统计
FGC-Full GC次数、FGCT-Full GC时间，计算是否频繁（如每分钟多次FGC）