最近看到朋友推荐的几篇文章,写的是关于linux终端下的系统检测工具。这让我蒙发了想归纳一下的想法,废话不多说,干点正事!

dstat:

   dstat是一个全能的系统信息统计工具,官方对dstat的定义为:多功能系统资源统计生成工具,可以取代vmstat,iostat,netstat和ifstat这些命令。dstat拥有彩色界面,数据比较容易观察,支持实时刷新。

   安装方法:

      yum -y install dstat

   直接使用dstat默认参数 -cdngy,分别显示 cpu,disk,net,page,system信息,默认1s显示刷新一次。dstat 5    每5s显示刷新一次。dstat 2 10   每2s显示刷新一次,一共显示11(10+1)次。

   

    CPU状态:CPU的使用率。这项显示了用户,系统和空闲部分,这更好地分析了CPU当前的使用状况。如果你看到"wait"一栏中,CPU的状态是一个高使用率值,那说明系统存在一些其它问题。当CPU的状态处在"waits"时,那是因为它正在等待I/O设备(例如内存,磁盘或者网络)的响应而且还没有收到。hiq,siq分别代表硬中断和软中断(详情参考:


  磁盘统计:磁盘的读写操作,显示磁盘的读、写总数。


  网络统计:网络设备发送和接受的数据,显示的网络收、发数据总数。

  分页统计:系统的分页活动。分页指的是一种内存管理技术用于查找系统场景,一个较大的分页表明系统正在使用大量的交换空间,或者说内存非常分散,大多数情况下你都希望看到page in(换入)和page out(换出)的值是0 0。

  系统统计:这一项显示的是中断(int)和上下文切换(csw)。这项统计仅在有比较基线时才有意义。这一栏中较高的统计值通常表示大量的进程造成拥塞,需要对CPU进行关注。你的服务器一般情况下都会运行运行一些程序,所以这项总是显示一些数值。

  常用选项:

 -c:显示CPU系统占用

-C:当有多个CPU的时候可以选择多个CPU,例如:-C 0 1 是显示cpu0  cpu1的信息

-d:显示磁盘读写大小

-n:显示网络状态

-N:当有多个网卡的时候指定显示那个网卡,例如 -N eth1,tota  统计eth1接口汇总流量

-l: 显示系统负载情况(1分钟,5分钟,15分钟的平均值)

-m:显示内存使用情况(used:使用的内存,buff:作为buffer cache的内存,对块设备的读写进行缓冲,cach:作为page cache的内存,文件系统的cache,free:空闲的物理内存)

-g:显示页面使用情况

-p:显示进程状态

-s: 显示交换分区使用情况(used:使用的交换分区大小,free:空闲的交换分区大小)

-r:I/O请求情况(读,写)

-y:系统状态

-t :显示系统当前的时间(如果只使用这个选项只会显示时间,一般和别的选项连用)

[root@localhost ~]# dstat -t

----system----

  date/time   

18-10 10:43:51

18-10 10:43:52

18-10 10:43:53


[root@localhost ~]# dstat -tsp

----system---- ----swap--- ---procs---

  date/time   | used  free|run  blk  new

18-10 10:44:35|   0  7906M|  0   0  0.1

18-10 10:44:36|   0  7906M|  0   0   0

18-10 10:44:37|   0  7906M|  0   0   0

18-10 10:44:38|   0  7906M|  0   0   0

-socket:用来显示TCP UDP端口状态

dstat附带了一些插件很大程度地扩展了它的功能。你可以通过查看/usr/share/dstat目录来查看它们的一些使用方法,常用的有这些:

--disk-util :显示某一时间磁盘的忙碌状况

--freespace :显示当前磁盘空间使用率

--proc-count :显示正在运行的程序数量

--top-bio :指出块I/O最大的进程

--top-cpu :图形化显示CPU占用最大的进程

--top-mem:显示占用最多内存的进程

--top-io :显示正常I/O最大的进程

--tcp :显示TCP套接字

--udp:显示UDP套接字

--output 文件名:可以把状态信息重定向到指定的文件(如果文件后缀为.csv   可以用excl打开然后生成图表,非常方便) 

参考:

https://linux.cn/article-3215-1.html

#######################################################################

ps:

ps命令是Process Status的缩写,显示当前所有进程的状态(非动态)。ps 显示进程的ID号  可以使用kill 直接杀死进程。

ps aux 

 a:所有与终端相关的进程   x:所有与终端无关的进程   u:以用户为中心组织进程状态信息显示

USER: 进程所有者
PID: 进程ID

%CPU: 占用的 CPU 使用率
%MEM: 占用的内存使用率
VSZ: 占用的虚拟内存大小
RSS: 占用的内存大小

TTY: 终端的次要装置号码 (minor device number of tty)

STAT: 进程状态:

START: 启动进程的时间; 
TIME: 进程消耗CPU的时间;
COMMAND:命令的名称和参数;


进程STAT状态:

D 无法中断的休眠状态(通常 IO 的进程); 
R 正在运行,在可中断队列中; 
S 处于休眠状态,静止状态; 
T 停止或被追踪,暂停执行; 
W 进入内存交换(从内核2.6开始无效); 
X 死掉的进程; 
Z 僵尸进程不存在但暂时无法消除;

<: 高优先级进程
N: 低优先序进程
s 进程的领导者(在它之下有子进程); 
l 多进程的(使用 CLONE_THREAD, 类似 NPTL pthreads); 
+ 位于后台的进程组;


ps -ef:

e:显示所有进程   f:显示完整格式的进程信息


PPID:父进程的ID号


###########################################################################################


top:


TOP是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.

 TOP前五行统计信息:

1. 第一行是任务队列信息

同 uptime  命令的执行结果:

[root@localhost ~]# uptime

12:30:40 up 40 days,  2:41,  3 users,  load average: 0.10, 0.03, 0.01

其内容如下:

12:30:40

当前时间

up 40days,2:26

系统运行时间,格式为时:分

3 user

当前登录用户数

load average: 0.01, 0.03, 0.01

系统负载,即任务队列的平均长度。 三个数值分别为  1分钟、5分钟、15分钟前到现在的平均值。

2. 第二、三行为进程和CPU的信息

当有多个CPU时,这些内容可能会超过两行。内容如下:

Tasks: 145 total

进程总数

1 running

正在运行的进程数

144 sleeping

睡眠的进程数

0 stopped

停止的进程数

0 zombie

僵尸进程数

Cpu(s): 0.3% us

用户空间占用CPU百分比

1.0% sy

内核空间占用CPU百分比

0.0% ni

用户进程空间内改变过优先级的进程占用CPU百分比

98.7% id

空闲CPU百分比

0.0% wa

等待输入输出的CPU时间百分比

0.0% hi

硬中断

0.0% si

软中断

3. 第四五行为内存信息。

内容如下:

Mem: 0918788k total

物理内存总量

10370836k used

使用的物理内存总量

547952k free

空闲内存总量

200968k buffers

用作内核缓存的内存量

Swap: 8095996k total

交换区总量

0k used

使用的交换区总量

8095996k free

空闲交换区总量

9290916k cached

缓冲的交换区总量。 内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖, 该数值即为这些内容已存在于内存中的交换区的大小。相应的内存再次被换出时可不必再对交换区写入。

二.  进程信息

列名

含义

PID

进程id

PPID

父进程id

RUSER

Real user name

UID

进程所有者的用户id

USER

进程所有者的用户名

GROUP

进程所有者的组名

TTY

启动进程的终端名。不是从终端启动的进程则显示为 ?

PR

优先级

NI

nice值。负值表示高优先级,正值表示低优先级

P

最后使用的CPU,仅在多CPU环境下有意义

%CPU

上次更新到现在的CPU时间占用百分比

TIME

进程使用的CPU时间总计,单位秒

TIME+

进程使用的CPU时间总计,单位1/100秒

%MEM

进程使用的物理内存百分比

VIRT

进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

SWAP

进程使用的虚拟内存中,被换出的大小,单位kb。

RES

进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

CODE

可执行代码占用的物理内存大小,单位kb

DATA

可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb

SHR

共享内存大小,单位kb

nFLT

页面错误次数

nDRT

最后一次写入到现在,被修改过的页面数。

S

进程状态。
            D=不可中断的睡眠状态
            R=运行
            S=睡眠
            T=跟踪/停止
            Z=僵尸进程

COMMAND

命令名/命令行

WCHAN

若该进程在睡眠,则显示睡眠中的系统函数名

Flags

任务标志,参考 sched.h

2 用快捷键更改显示内容。

(1)更改显示内容通过 f键可以选择显示的内容。

       按 f 键之后会显示列的列表,按 a-z  即可显示或隐藏对应的列,最后按回车键确定。

(2)按o键可以改变列的显示顺序。

       按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z  可以将相应的列向左移动。最后按回车键确定。

       按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的  R 键可以将当前的排序倒转。

       设置完按回车返回界面。

3,命令格式:

top [-] [d] [p] [q] [c] [C] [S]    [n]

参数说明:

d:  指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s交互命令来改变之。

p:  通过指定监控进程ID来仅仅监控某个进程的状态。

q:该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行。

S: 指定累计模式

s : 使top命令在安全模式中运行。这将去除交互命令所带来的潜在危险。

i:  使top不显示任何闲置或者僵死进程。

c:  显示整个命令行而不只是显示命令名

在top命令的显示窗口,我们还可以输入以下字母,进行一些交互:

k  :终止一个进程。系统将提示用户输入需要终止的进程PID,以及需要发送给该进程什么样的信号。一般的终止进程可以使用15信号;如果不能正常结束那就使用信号9强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。

i:忽略闲置和僵死进程。这是一个开关式命令。

q:  退出程序。

r:  重新安排一个进程的优先级别。系统提示用户输入需要改变的进程PID以及需要设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更高的优先权。默认值是10。

S:切换到累计模式。

s :  改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s。如果有小数,就换算成ms。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间,很可能会引起不断刷新,从而根本来不及看清显示的情况,而且系统负载也会大大增加。

f或者F :从当前显示中添加或者删除项目。

o或者O  :改变显示项目的顺序。

l: 切换显示平均负载和启动时间信息。即显示影藏第一行

m: 切换显示内存信息。即显示影藏内存行

t : 切换显示进程和CPU状态信息。即显示影藏CPU行

c:  切换显示命令名称和完整命令行。 显示完整的命令。 这个功能很有用。

M : 根据驻留内存大小进行排序。

P:根据CPU使用百分比大小进行排序。

T: 根据时间/累计时间进行排序。

W:  将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。

参考:

################################################################################

vmstat:

vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。

一般vmstat工具的使用是通过两个数字参数来完成的,第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数,如:

1表示每个1秒采集一次服务器状态,5表示只采集5次。

如果我们需要不间断监控:

这表示vmstat每2秒采集数据,一直采集,直到我结束程序。

字段说明:

Procs(进程):

r: 运行队列中进程数量

b: 等待IO的进程数量

Memory(内存):

swpd: 使用虚拟内存大小

free: 可用内存大小

buff: 用作缓冲的内存大小

cache: 用作缓存的内存大小

Swap:

si: 每秒从交换区写到内存的大小

so: 每秒写入交换区的内存大小

IO:(现在的Linux版本块的大小为1024bytes)

bi: 每秒读取的块数

bo: 每秒写入的块数

系统:

in: 每秒中断数,包括时钟中断。

cs: 每秒上下文切换数。

CPU(以百分比表示):

us: 用户进程执行时间(user time)

sy: 系统进程执行时间(system time)

id: 空闲时间(包括IO等待时间),中央处理器的空闲时间 。以百分比表示。

wa: 等待IO时间

备注: 如果 r经常大于 4 ,且id经常少于40,表示cpu的负荷很重。如果pi,po 长期不等于0,表示内存不足。如果disk 经常不等于0, 且在 b中的队列 大于3, 表示 io性能不好。Linux在具有高稳定性、可靠性的同时,具有很好的可伸缩性和扩展性,能够针对不同的应用和硬件环境调整,优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时,了解系统性能分析工具是至关重要的。

sar:

sar(System Activity Reporter系统活动情况报告)是目前 Linux 上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。默认输出CPU使用情况,即sar -u  

常用的选项:

-A:所有报告的总和

-u:输出CPU使用情况的统计信息

-v:输出inode、文件和其他内核表的统计信息

-d:输出每一个块设备的活动信息

-r:输出内存和交换空间的统计信息

-b:显示I/O和传送速率的统计信息

-a:文件读写情况

-c:输出进程统计信息,每秒创建的进程数

-R:输出内存页面的统计信息

-y:终端设备活动情况

-w:输出系统交换活动信息

-o:输出到文件

-f:查看输出的文件

sar 1 5 

1表示每个1秒采集一次服务器状态,5表示只采集5次,最后显示各项的平均值

如果我们需要不间断监控:

sar 2 

这表示sar每2秒采集数据,一直采集,直到我结束程序。

%user : 用户模式下消耗的CPU时间的比例;

%nice:通过nice改变了进程调度优先级的进程,在用户模式下消耗的CPU时间的比例;

%system:系统模式下消耗的CPU时间的比例;

%iowait:CPU等待磁盘I/O而导致空闲状态消耗时间的比例;

%steal:利用Xen等操作系统虚拟化技术时,等待其他虚拟CPU计算占用的时间比例;

%idle:CPU没有等待磁盘I/O等的空闲状态消耗的时间比例;

注:

如果 %iowait 的值过高,表示硬盘存在I/O瓶颈 

如果 %idle 的值高但系统响应慢时,有可能是 CPU 等待分配内存,此时应加大内存容量 
如果 %idle 的值持续低于 10,则系统的 CPU 处理能力相对较低,表明系统中最需要解决的资源是 CPU。

sar –q 查看平均负荷

runq-sz:   运行队列的长度(等待运行的进程数)

plist-sz:   进程列表中进程(processes)和线程(threads)的数量

ldavg-1:   最后1分钟的系统平均负载(System load average)

ldavg-5:   过去5分钟的系统平均负载

ldavg-15:   过去15分钟的系统平均负载

sar –r 查看内存使用情况

kbmemfree:空闲物理内存量;

kbmemused:使用中的物理内存量;

%memused:物理内存量使用率;

kbbuffers:内核中作为缓冲区使用的物理内存容量;

kbcacheed:内核中作为缓存使用的物理内存容量;

kbswpfree:交换区的空闲容量;

kbswpused:使用中的交换区容量;

sar –b 查看I/O和传送速率的统计信息

tps:     每秒钟物理设备的 I/O 传输总量                    
rtps:    每秒钟从物理设备读入的数据总量                  
wtps:    每秒钟向物理设备写入的数据总量                  
bread/s:   每秒钟从物理设备读入的数据量,单位为 块/s    
bwrtn/s:   每秒钟向物理设备写入的数据量,单位为 块/s

##########################################################################################

实时显示系统CPU使用信息:dstat -c ;top ; htop ;vmstat ;sar -u

实时显示物理内存使用信息:top ;htop ;sar -r

实时显示磁盘的读写操作信息:dstat 

实时显示IO信息: dstat -r ;vmstat ;sar -b

实时显示交换分区(swap): top ; htop ;dstat -s ;vmstat ;sar -w

实时显示系统进程数量及状态:top ; htop

实时显示系统负载:top ; htop ;dstat -l ;sar -q

查看摸个进程占用的 CPU,内存,已经运行时间:top , htop