Linux 服务器性能出问题，排查下这些参数指标_服务器知识

1.1 top

1.2 vmstat

r 表示可运行进程数目，数据大致相符；而b表示的是 uninterruptible 睡眠的进程数目；swpd 表示使用到的虚拟内存数量，跟 top-Swap-used 的数值是一个含义，而如手册所说，通常情况下 buffers 数目要比 cached Mem 小的多，buffers 一般20M这么个数量级；io 域的 bi、bo 表明每秒钟向磁盘接收和发送的块数目(blocks/s)；system 域的 in 表明每秒钟的系统中断数(包括时钟中断)，cs表明因为进程切换导致上下文切换的数目。

说到这里，想到以前很多人纠结编译 linux kernel 的时候 -j 参数究竟是 CPU Core 还是 CPU Core+1？通过上面修改 -j 参数值编译 boost 和 linux kernel 的同时开启 vmstat 监控，发现两种情况下 context switch 基本没有变化，且也只有显著增加 -j 值后 context switch 才会有显著的增加，看来不必过于纠结这个参数了，虽然具体编译时间长度我还没有测试。资料说如果不是在系统启动或者 benchmark 的状态，参数 context switch>100000 程序肯定有问题。

1.3 pidstat

如果想对某个进程进行全面具体的追踪，没有什么比 pidstat 更合适的了——栈空间、缺页情况、主被动切换等信息尽收眼底。这个命令最有用的参数是-t，可以将进程中各个线程的详细信息罗列出来。

-r：显示缺页错误和内存使用状况，缺页错误是程序需要访问映射在虚拟内存空间中但是还尚未被加载到物理内存中的一个分页，缺页错误两个主要类型是

-s：栈使用状况，包括 StkSize 为线程保留的栈空间，以及 StkRef 实际使用的栈空间。使用ulimit -s发现CentOS 6.x上面默认栈空间是10240K，而 CentOS 7.x、Ubuntu系列默认栈空间大小为8196K

1.4 其他

while :do ps -eo user,pid,ni,pri,pcpu,psr,comm | grep 'ailawd'sleep 1done

2.1 iostat

3.1 netstat

➜ ~ netstat -antp #列出所有TCP的连接

➜ ~ netstat -nltp #列出本地所有TCP侦听套接字，不要加-a参数

3.2 sar

3.3 tcpdump

################### cpu性能查看 ############################################################

1、查看物理cpu个数：

cat /proc/cpuinfo |grep "physical id"|sort|uniq|wc -l

2、查看每个物理cpu中的core个数：

cat /proc/cpuinfo |grep "cpu cores"|wc -l

3、逻辑cpu的个数：

cat /proc/cpuinfo |grep "processor"|wc -l

物理cpu个数*核数=逻辑cpu个数（不支持超线程技术的情况下）

########################### 内存查看 ################################################################

1、查看内存使用情况：

free -m

total used free sharedbuffers cached

Mem: 3949 2519 1430 0189 1619

-/+ buffers/cache:710 3239

Swap: 3576 0 3576

total：内存总数

used：已经使用的内存数

free：空闲内存数

shared：多个进程共享的内存总额

- buffers/cache：(已用)的内存数，即used-buffers-cached

+ buffers/cache：(可用)的内存数，即free+buffers+cached

Buffer Cache用于针对磁盘块的读写；Page Cache用于针对文件inode的读写，这些Cache能有效地缩短I/O系统调用的时间。

对于操作系统来说free/used是系统可用/占用的内存；而对于应用程序来说-/+ buffers/cache是可用/占用内存,因为buffers/cache很快就会被使用。我们工作时候应该从应用角度来看。

################# 硬盘查看 ##########################################################################

1、查看硬盘及分区信息：

fdisk -l

2、查看文件系统的磁盘空间占用情况：

df -h

3、查看硬盘的I/O性能（每隔一秒显示一次，显示5次）：

iostat -x 1 5

iostat是含在套装systat中的,可以用yum -y install systat来安装。

常关注的参数：

如果%util接近100%,说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

如果idle小于70%，I/O的压力就比较大了，说明读取进程中有较多的wait。

4、查看linux系统中某目录的大小：

du -sh /root

如发现某个分区空间接近用完，可以进入该分区的挂载点，用以下命令找出占用空间最多的文件或目录，然后按照从大到小的顺序，找出系统中占用最多空间的前10个文件或目录：

du -cksh *|sort -rn|head -n 10

############################################ 查看平均负载 ####################################

有时候系统响应很慢，但又找不到原因，这时就要查看平均负载了，看它是否有大量的进程在排队等待。

最简单的命令：

uptime

查看过去的1分钟、5分钟和15分钟内进程队列中的平均进程数量。

还有动态命令：

top

我们只关心以下部分：

top - 21:33:09 up 1:00, 1 user, load average: 0.00, 0.01, 0.05

如果每个逻辑cpu当前的活动进程不大于3，则系统性能良好；

如果每个逻辑cpu当前的活动进程不大于4，表示可以接受；

如果每个逻辑cpu当前的活动进程大于5，则系统性能问题严重。

一般计算方法：负载值/逻辑cpu个数

还可以结合vmstat命令来判断系统是否繁忙，其中：

procs

r：等待运行的进程数。

b：处在非中断睡眠状态的进程数。

w：被交换出去的可运行的进程数。

memeory

swpd：虚拟内存使用情况，单位为KB。

free：空闲的内存，单位为KB。

buff：被用来作为缓存的内存数，单位为KB。

swap

si：从磁盘交换到内存的交换页数量，单位为KB。

so：从内存交换到磁盘的交换页数量，单位为KB。

bi：发送到块设备的块数，单位为KB。

bo：从块设备接受的块数，单位为KB。

system

in：每秒的中断数，包括时钟中断。

cs：每秒的环境切换次数。

cpu

按cpu的总使用百分比来显示。

us：cpu使用时间。

sy：cpu系统使用时间。

id：闲置时间。

标准情况下r和b的值应该为：

r<5,b=0

假设输出的信息中：

如果r经常大于3或4，且id经常少于50，表示cpu的负荷过重。

pi、po长期不等于0，表示内存不足。

bi经常不等于0，且在b中的队列大于2或3，表示io的性能不好。

################################# 其他参数 #####################################

查看内核版本号：

uname -a

简化命令：

uname -r

查看系统是32位还是64位的：

file /sbin/init

查看发行版：

cat /etc/issue

或lsb_release -a

查看系统已载入的相关模块：

lsmod

查看pci设置：

lspci

首先、用top命令查看

top - 16:15:05 up 6 days, 6:25, 2 users, load average: 1.45, 1.77, 2.14

Tasks: 147 total, 1 running, 146 sleeping, 0 stopped, 0 zombie

Cpu(s): 0.2% us, 0.2% sy, 0.0% ni, 86.9% id, 12.6% wa, 0.0% hi, 0.0% si

Mem: 4037872k total, 4003648k used,34224k free, 5512k buffers

Swap: 7164948k total, 629192k used, 6535756k free, 3511184k cached

查看12.6% wa

IO等待所占用的CPU时间的百分比,高过30%时IO压力高

其次、用iostat -x 1 10

avg-cpu: %user %nice%sys %iowait %idle

0.00 0.00 0.2533.4666.29

Device:rrqm/s wrqm/s r/sw/s rsec/s wsec/srkB/swkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.000.00 0.00 0.000.000.00 0.00 0.00 0.00 0.000.000.00 0.00

sdb 0.00 1122 17.00 9.00 192.00 9216.0096.00 4608.00 123.79 137.23 1033.43 13.17 100.10

sdc 0.000.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.000.00 0.00 0.00

查看%util 100.10 %idle 66.29

如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

idle小于70% IO压力就较大了,一般读取速度有较多的wait.

同时可以结合vmstat 查看查看b参数(等待资源的进程数)

vmstat -1

如果你想对硬盘做一个IO负荷的压力测试可以用如下命令

time dd if=/dev/zero bs=1M count=2048 of=direct_2G

此命令为在当前目录下新建一个2G的文件

我们在新建文件夹的同时来测试IO的负荷情况

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/241511.html

Linux 服务器性能出问题，排查下这些参数指标

发表评论

评论列表（0条）