使用uptime
或者top
命令,以uptime
为例:
$ uptime 02:34:03 up 2 days, 20:14, 1 user, load average: 0.63, 0.83, 0.88
含义:
02:34:03 //当前时间 up 2 days, 20:14 //系统运行时间 1 user //正在登录用户数 load average: 0.63, 0.83, 0.88 // 依次则是过去 1 分钟、5 分钟、15 分钟的平均负载(Load Average)
单位时间内,系统中处于可运行状态(R)和不可中断状态(D)的平均进程数,即平均活跃进程数(实际上是活跃进程数的指数衰减平均值,参考sched/loadavg.c),跟cpu的使用率没有直接关系。所以这里不仅包括了正在使用CPU
的进程,还包括等待CPU
和等待I/O
的进程。
R: Running或者Runable
D:Uninterruptible Sleep或者Disk Sleep
平均负载最理想的情况是等于CPU个数,当高于CPU数量的70%的时候,就应该排查负载高的问题了。负载过高可能会导致进程响应变慢,进而影响服务的正常功能。
平均负载提供了一个快速查看系统整体性能的手段,反映了整体的负载情况。但只看平均负载本身,我们并不能直接发现,到底是哪里出现了瓶颈。在理解平均负载时,也要注意:
$ stress --cpu 1 --timeout 600 # 模拟一个CPU密集型进程,运行600秒后退出
$ stress -i 1 --timeout 600 # 模拟一个IO密集型进程,运行600秒后退出。使用sync来实现,有可能无法产生有效的iowait,可以使用stress-ng
这个stress工具的继任者是stress-ng,可以模拟的进程类型非常广泛,值得研究一下。
比如用这个工具模拟IO密集型进程:
stress-ng -i 1 --hdd 1 --timeout 600 # --hdd表示读写临时文件
watch
周期性执行指定命令,加入-d参数会将差异部分高亮出来。如watch -d uptime
可以实时查看平均负载的变化情况
mpstat
常用的多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标
示例:
mpstat -P ALL 2 5 # 显示所有cpu的指标,每个2秒输出依次,执行5次后退出
pidstat -u 2 5 # -u表示查看CPU指标,每隔2s输出一组,执行5次后退出 pidstat -d 2 5 # -d表示查看IO指标,每隔2s输出一组,执行5次后退出
htop
对于IO密集型负载:红色
对于CPU密集型负载:绿色
atop