最近看到朋友推荐的几篇文章,写的是关于linux终端下的系统检测工具。这让我蒙发了想归纳一下的想法,废话不多说,干点正事!
dstat:
dstat是一个全能的系统信息统计工具,官方对dstat的定义为:多功能系统资源统计生成工具,可以取代vmstat,iostat,netstat和ifstat这些命令。dstat拥有彩色界面,数据比较容易观察,支持实时刷新。
安装方法:
yum -y install dstat
直接使用dstat默认参数 -cdngy,分别显示 cpu,disk,net,page,system信息,默认1s显示刷新一次。dstat 5 每5s显示刷新一次。dstat 2 10 每2s显示刷新一次,一共显示11(10+1)次。
CPU状态:CPU的使用率。这项显示了用户,系统和空闲部分,这更好地分析了CPU当前的使用状况。如果你看到"wait"一栏中,CPU的状态是一个高使用率值,那说明系统存在一些其它问题。当CPU的状态处在"waits"时,那是因为它正在等待I/O设备(例如内存,磁盘或者网络)的响应而且还没有收到。hiq,siq分别代表硬中断和软中断(详情参考:
磁盘统计:磁盘的读写操作,显示磁盘的读、写总数。
网络统计:网络设备发送和接受的数据,显示的网络收、发数据总数。
分页统计:系统的分页活动。分页指的是一种内存管理技术用于查找系统场景,一个较大的分页表明系统正在使用大量的交换空间,或者说内存非常分散,大多数情况下你都希望看到page in(换入)和page out(换出)的值是0 0。
系统统计:这一项显示的是中断(int)和上下文切换(csw)。这项统计仅在有比较基线时才有意义。这一栏中较高的统计值通常表示大量的进程造成拥塞,需要对CPU进行关注。你的服务器一般情况下都会运行运行一些程序,所以这项总是显示一些数值。
常用选项:
-c:显示CPU系统占用
-C:当有多个CPU的时候可以选择多个CPU,例如:-C 0 1 是显示cpu0 cpu1的信息
-d:显示磁盘读写大小
-n:显示网络状态
-N:当有多个网卡的时候指定显示那个网卡,例如 -N eth1,tota 统计eth1接口汇总流量
-l: 显示系统负载情况(1分钟,5分钟,15分钟的平均值)
-m:显示内存使用情况(used:使用的内存,buff:作为buffer cache的内存,对块设备的读写进行缓冲,cach:作为page cache的内存,文件系统的cache,free:空闲的物理内存)
-g:显示页面使用情况
-p:显示进程状态
-s: 显示交换分区使用情况(used:使用的交换分区大小,free:空闲的交换分区大小)
-r:I/O请求情况(读,写)
-y:系统状态
-t :显示系统当前的时间(如果只使用这个选项只会显示时间,一般和别的选项连用)
[root@localhost ~]# dstat -t
----system----
date/time
18-10 10:43:51
18-10 10:43:52
18-10 10:43:53
[root@localhost ~]# dstat -tsp
----system---- ----swap--- ---procs---
date/time | used free|run blk new
18-10 10:44:35| 0 7906M| 0 0 0.1
18-10 10:44:36| 0 7906M| 0 0 0
18-10 10:44:37| 0 7906M| 0 0 0
18-10 10:44:38| 0 7906M| 0 0 0
-socket:用来显示TCP UDP端口状态
dstat附带了一些插件很大程度地扩展了它的功能。你可以通过查看/usr/share/dstat目录来查看它们的一些使用方法,常用的有这些:
--disk-util :显示某一时间磁盘的忙碌状况
--freespace :显示当前磁盘空间使用率
--proc-count :显示正在运行的程序数量
--top-bio :指出块I/O最大的进程
--top-cpu :图形化显示CPU占用最大的进程
--top-mem:显示占用最多内存的进程
--top-io :显示正常I/O最大的进程
--tcp :显示TCP套接字
--udp:显示UDP套接字
--output 文件名:可以把状态信息重定向到指定的文件(如果文件后缀为.csv 可以用excl打开然后生成图表,非常方便)
参考:
https://linux.cn/article-3215-1.html
#######################################################################
ps:
ps命令是Process Status的缩写,显示当前所有进程的状态(非动态)。ps 显示进程的ID号 可以使用kill 直接杀死进程。
ps aux
a:所有与终端相关的进程 x:所有与终端无关的进程 u:以用户为中心组织进程状态信息显示
USER: 进程所有者
PID: 进程ID
%CPU: 占用的 CPU 使用率
%MEM: 占用的内存使用率
VSZ: 占用的虚拟内存大小
RSS: 占用的内存大小
TTY: 终端的次要装置号码 (minor device number of tty)
STAT: 进程状态:
START: 启动进程的时间;
TIME: 进程消耗CPU的时间;
COMMAND:命令的名称和参数;
进程STAT状态:
D 无法中断的休眠状态(通常 IO 的进程);
R 正在运行,在可中断队列中;
S 处于休眠状态,静止状态;
T 停止或被追踪,暂停执行;
W 进入内存交换(从内核2.6开始无效);
X 死掉的进程;
Z 僵尸进程不存在但暂时无法消除;
<: 高优先级进程
N: 低优先序进程
s 进程的领导者(在它之下有子进程);
l 多进程的(使用 CLONE_THREAD, 类似 NPTL pthreads);
+ 位于后台的进程组;
ps -ef:
e:显示所有进程 f:显示完整格式的进程信息
PPID:父进程的ID号
###########################################################################################
top:
TOP是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.
TOP前五行统计信息:
1. 第一行是任务队列信息
同 uptime 命令的执行结果:
[root@localhost ~]# uptime
12:30:40 up 40 days, 2:41, 3 users, load average: 0.10, 0.03, 0.01
其内容如下:
12:30:40 | 当前时间 |
up 40days,2:26 | 系统运行时间,格式为时:分 |
3 user | 当前登录用户数 |
load average: 0.01, 0.03, 0.01 | 系统负载,即任务队列的平均长度。 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。 |
2. 第二、三行为进程和CPU的信息
当有多个CPU时,这些内容可能会超过两行。内容如下:
Tasks: 145 total | 进程总数 |
1 running | 正在运行的进程数 |
144 sleeping | 睡眠的进程数 |
0 stopped | 停止的进程数 |
0 zombie | 僵尸进程数 |
Cpu(s): 0.3% us | 用户空间占用CPU百分比 |
1.0% sy | 内核空间占用CPU百分比 |
0.0% ni | 用户进程空间内改变过优先级的进程占用CPU百分比 |
98.7% id | 空闲CPU百分比 |
0.0% wa | 等待输入输出的CPU时间百分比 |
0.0% hi | 硬中断 |
0.0% si | 软中断 |
3. 第四五行为内存信息。
内容如下:
Mem: 0918788k total | 物理内存总量 |
10370836k used | 使用的物理内存总量 |
547952k free | 空闲内存总量 |
200968k buffers | 用作内核缓存的内存量 |
Swap: 8095996k total | 交换区总量 |
0k used | 使用的交换区总量 |
8095996k free | 空闲交换区总量 |
9290916k cached | 缓冲的交换区总量。 内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖, 该数值即为这些内容已存在于内存中的交换区的大小。相应的内存再次被换出时可不必再对交换区写入。 |
二. 进程信息
列名 | 含义 |
PID | 进程id |
PPID | 父进程id |
RUSER | Real user name |
UID | 进程所有者的用户id |
USER | 进程所有者的用户名 |
GROUP | 进程所有者的组名 |
TTY | 启动进程的终端名。不是从终端启动的进程则显示为 ? |
PR | 优先级 |
NI | nice值。负值表示高优先级,正值表示低优先级 |
P | 最后使用的CPU,仅在多CPU环境下有意义 |
%CPU | 上次更新到现在的CPU时间占用百分比 |
TIME | 进程使用的CPU时间总计,单位秒 |
TIME+ | 进程使用的CPU时间总计,单位1/100秒 |
%MEM | 进程使用的物理内存百分比 |
VIRT | 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES |
SWAP | 进程使用的虚拟内存中,被换出的大小,单位kb。 |
RES | 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA |
CODE | 可执行代码占用的物理内存大小,单位kb |
DATA | 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb |
SHR | 共享内存大小,单位kb |
nFLT | 页面错误次数 |
nDRT | 最后一次写入到现在,被修改过的页面数。 |
S | 进程状态。 |
COMMAND | 命令名/命令行 |
WCHAN | 若该进程在睡眠,则显示睡眠中的系统函数名 |
Flags | 任务标志,参考 sched.h |
2 用快捷键更改显示内容。
(1)更改显示内容通过 f键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
(2)按o键可以改变列的显示顺序。
按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。
按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。
设置完按回车返回界面。
3,命令格式:
top [-] [d] [p] [q] [c] [C] [S] [n]
参数说明:
d: 指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s交互命令来改变之。
p: 通过指定监控进程ID来仅仅监控某个进程的状态。
q:该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行。
S: 指定累计模式
s : 使top命令在安全模式中运行。这将去除交互命令所带来的潜在危险。
i: 使top不显示任何闲置或者僵死进程。
c: 显示整个命令行而不只是显示命令名
在top命令的显示窗口,我们还可以输入以下字母,进行一些交互:
k :终止一个进程。系统将提示用户输入需要终止的进程PID,以及需要发送给该进程什么样的信号。一般的终止进程可以使用15信号;如果不能正常结束那就使用信号9强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。
i:忽略闲置和僵死进程。这是一个开关式命令。
q: 退出程序。
r: 重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID以及需要设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更高的优先权。默认值是10。
S:切换到累计模式。
s : 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成ms。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加。
f或者F :从当前显示中添加或者删除项目。
o或者O :改变显示项目的顺序。
l: 切换显示平均负载和启动时间信息。即显示影藏第一行
m: 切换显示内存信息。即显示影藏内存行
t : 切换显示进程和CPU状态信息。即显示影藏CPU行
c: 切换显示命令名称和完整命令行。 显示完整的命令。 这个功能很有用。
M : 根据驻留内存大小进行排序。
P:根据CPU使用百分比大小进行排序。
T: 根据时间/累计时间进行排序。
W: 将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。
参考:
################################################################################
vmstat:
vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。
一般vmstat工具的使用是通过两个数字参数来完成的,第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数,如:
1表示每个1秒采集一次服务器状态,5表示只采集5次。
如果我们需要不间断监控:
这表示vmstat每2秒采集数据,一直采集,直到我结束程序。
字段说明:
Procs(进程):
r: 运行队列中进程数量
b: 等待IO的进程数量
Memory(内存):
swpd: 使用虚拟内存大小
free: 可用内存大小
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小
Swap:
si: 每秒从交换区写到内存的大小
so: 每秒写入交换区的内存大小
IO:(现在的Linux版本块的大小为1024bytes)
bi: 每秒读取的块数
bo: 每秒写入的块数
系统:
in: 每秒中断数,包括时钟中断。
cs: 每秒上下文切换数。
CPU(以百分比表示):
us: 用户进程执行时间(user time)
sy: 系统进程执行时间(system time)
id: 空闲时间(包括IO等待时间),中央处理器的空闲时间 。以百分比表示。
wa: 等待IO时间
备注: 如果 r经常大于 4 ,且id经常少于40,表示cpu的负荷很重。如果pi,po 长期不等于0,表示内存不足。如果disk 经常不等于0, 且在 b中的队列 大于3, 表示 io性能不好。Linux在具有高稳定性、可靠性的同时,具有很好的可伸缩性和扩展性,能够针对不同的应用和硬件环境调整,优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时,了解系统性能分析工具是至关重要的。
sar:
sar(System Activity Reporter系统活动情况报告)是目前 Linux 上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。默认输出CPU使用情况,即sar -u
常用的选项:
-A:所有报告的总和
-u:输出CPU使用情况的统计信息
-v:输出inode、文件和其他内核表的统计信息
-d:输出每一个块设备的活动信息
-r:输出内存和交换空间的统计信息
-b:显示I/O和传送速率的统计信息
-a:文件读写情况
-c:输出进程统计信息,每秒创建的进程数
-R:输出内存页面的统计信息
-y:终端设备活动情况
-w:输出系统交换活动信息
-o:输出到文件
-f:查看输出的文件
sar 1 5
1表示每个1秒采集一次服务器状态,5表示只采集5次,最后显示各项的平均值
如果我们需要不间断监控:
sar 2
这表示sar每2秒采集数据,一直采集,直到我结束程序。
%user : 用户模式下消耗的CPU时间的比例;
%nice:通过nice改变了进程调度优先级的进程,在用户模式下消耗的CPU时间的比例;
%system:系统模式下消耗的CPU时间的比例;
%iowait:CPU等待磁盘I/O而导致空闲状态消耗时间的比例;
%steal:利用Xen等操作系统虚拟化技术时,等待其他虚拟CPU计算占用的时间比例;
%idle:CPU没有等待磁盘I/O等的空闲状态消耗的时间比例;
注:
如果 %iowait 的值过高,表示硬盘存在I/O瓶颈
如果 %idle 的值高但系统响应慢时,有可能是 CPU 等待分配内存,此时应加大内存容量 如果 %idle 的值持续低于 10,则系统的 CPU 处理能力相对较低,表明系统中最需要解决的资源是 CPU。sar –q 查看平均负荷
runq-sz: 运行队列的长度(等待运行的进程数)
plist-sz: 进程列表中进程(processes)和线程(threads)的数量
ldavg-1: 最后1分钟的系统平均负载(System load average)
ldavg-5: 过去5分钟的系统平均负载
ldavg-15: 过去15分钟的系统平均负载
sar –r 查看内存使用情况
kbmemfree:空闲物理内存量;
kbmemused:使用中的物理内存量;
%memused:物理内存量使用率;
kbbuffers:内核中作为缓冲区使用的物理内存容量;
kbcacheed:内核中作为缓存使用的物理内存容量;
kbswpfree:交换区的空闲容量;
kbswpused:使用中的交换区容量;
sar –b 查看I/O和传送速率的统计信息
tps: 每秒钟物理设备的 I/O 传输总量
rtps: 每秒钟从物理设备读入的数据总量
wtps: 每秒钟向物理设备写入的数据总量
bread/s: 每秒钟从物理设备读入的数据量,单位为 块/s
bwrtn/s: 每秒钟向物理设备写入的数据量,单位为 块/s
##########################################################################################
实时显示系统CPU使用信息:dstat -c ;top ; htop ;vmstat ;sar -u
实时显示物理内存使用信息:top ;htop ;sar -r
实时显示磁盘的读写操作信息:dstat
实时显示IO信息: dstat -r ;vmstat ;sar -b
实时显示交换分区(swap): top ; htop ;dstat -s ;vmstat ;sar -w
实时显示系统进程数量及状态:top ; htop
实时显示系统负载:top ; htop ;dstat -l ;sar -q
查看摸个进程占用的 CPU,内存,已经运行时间:top , htop