机器型号:
序列号:
检查时间:_______年____月____日
1.机房环境:
?温度 □符合要求□不符合
?湿度 □符合要求□不符合
2.机器清洁(根据需要清洁机器各部件): □已清洁 □不需要
3.检查系统硬件情况:
?设备故障灯是否有亮 □有□无
?是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)
□有□无
4.系统错误报告(Error Log):
?有否硬件故障□有□无
故障内容:
若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)
结论(如SRN, FRU等):
?有否软件故障□有□无
故障内容:
结论:
5.有否发给root用户的错误报告(mail): □有 □无
结论:
6.检查hacmp.out,smit.log,bootlog等: □正常□不正常
7.文件系统的使用率不大于80%:□是□否
8.查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:□是 □否
若有,用syncvg 命令修复"stale"逻辑卷。
备注:
9.系统性能,有否性能瓶颈(topas, vmstat等):□有 □无
?交换区使用率是否超过70%(lsps -s),实际值____
?CPU是否繁忙(sar 1 10),idle值_____
?I/O平衡(iostat 1)
10.备份:
?有否合符要求的系统备份: □有 □无
?最近一次系统备份的时间_________
?有否符合要求的用户数据备份: □有□无
?有否符合要求的用户数据备份: □有□无
?磁带机是否需要清洗: □需要 □不需
11.通信:
?网卡的状态、IP地址、路由表等: □正常□不正常
?网卡通信(ping):□正常□不正常
?/etc/hosts文件或DNS设置: □正常□不正常
12.系统DUMP设置是否正确:□正常□不正常
13.HACMP 测试:
?Cluster Verification:□正常 □不正常;
?相关参数设置检查: □正常 □不正常
?(根据需要)接管测试: □正常□不正常
14.系统硬件诊断:
?系统板、CPU、内存、I/O板: □正常 □不正常
?网卡、SCSI卡、SSA卡: □正常 □不正常
?系统其他扩展卡: □正常 □不正常
?硬盘、磁盘阵列: □正常 □不正常
?磁带机、磁带库: □正常 □不正常
15.查系统参数是否正确:□是 □否
?I/O pacing: High Water Mark/Low Water Mark:33/24
?Syncd:10
?Aio :available
?/etc/environment文件中TZ不应有夏时制
?Hacmp 系统中Power Monitor子系统应关闭
16.补丁程序(PTF)检查,现有补丁维护版本为_____:
根据系统运行状况决定是否安装新的PTF。
需要安装的补丁程序:
17.运行#snap –ac,生成文件命名为snap+s/n.pax.Z。
18.检查errdemon, srcmstr是否正常运行:□是□否
巡检内容及操作指导
1. IBM RS6000小型机机房要求:
1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏 ℃)
10 ℃-40℃
湿度(%)
8% -80%
2.设备故障灯分类:
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
FAStT700磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4.有否发给root用户的错误报告(mail):
1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:
h [<num>] Display headings of group containing message <num>
t [<msg_list>] Display messages in <msg_list>or current message.
n Display next message.
q Quit
3.对发现的问题详细分析,结果报告给客户
5.文件系统的检查:
命令:
# df –kP
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6.通信系统的检测:
1.网卡的状态
命令:
#ifconfig –a
输出判断:
en0: flags=7e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>
inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255
主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。
2.路由的检测
命令:
#lsattr –El inet0
hostname shaixsvr Host NameTrue
gatewayGateway True
route RouteTrue
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
authm 65536Authentication Methods True
3.网络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary/dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dumpFALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
1.系统维护补丁版本为ML05,检查命令为:
#instfix –i |grep ML
12.系统参数的检查
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True
2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per fileTrue
更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &
更改命令为:
#vi /sbin/rc.boot
4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of serversTrue
maxservers 10MAXIMUM number of serversTrue
maxreqs4096 Maximum number of REQUESTS True
kprocprio 39Server PRIORITY True
autoconfig available STATE to be configured at system restart True
fastpath enableState of fast path True
更改命令为:
#smitty aio
5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds)unlimited
file(blocks) 2097151
data(kbytes) 262144 //尤其是这项参数
stack(kbytes)32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288
1、机器型号# uname -uM
IBM,7029-6E3 IBM,01100550A
2、检查系统硬件设备故障灯是否有亮
3、系统错误报告
# errpt -d H -T PERM //硬件的错误报告
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR
BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR
# errpt -d S -T PERM //软件的错误报告
# errpt -aj *******|more //具体的错误信息
# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件
4、有否给 root 用户的错误报告
Mail [5.2 UCB] [AIX 5.X] Type ? for help.
"/var/spool/mail/root": 5 messages 3 new 5 unread
U 1 root Thu May 15 09:53 24/884 "diagela message from p615"
U 2 root Fri May 16 04:07 24/884 "diagela message from p615"
>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"
5、检查 hacmp.out, smit.log, bootlog 等
# lssrc -g cluster/#>lssrc -g cluster
Subsystem GroupPID Status
clstrmgrES cluster 16334active
一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/
然后找到最近的 hacmp.out 文件,察看有没有错误信息
6、文件系统检查
# df -k
Filesystem1024-blocks Free %UsedIused %Iused Mounted on
/dev/hd4 131072101568 23% 2268 4% /
/dev/hd2 1441792 31256 98%3605611% /usr
/dev/hd9var131072117048 11% 418 2% /var
看看有没有超过 90% 使用率的,建议用户改善
7、逻辑卷有否 "stale" 的状态
# lsvg -l rootvg
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1closed/syncd N/A
hd6 paging 4 4 1open/syncdN/A
hd8 jfslog 1 1 1open/syncdN/A
hd4 jfs1 1 1open/syncd/
hd2 jfs11111open/syncd/usr
hd9var jfs1 1 1open/syncd/var
如果系统还有其他卷组,也需要察看
8、内存交换区的使用率是否超过 70%
# lsps -a
Page Space Physical Volume Volume GroupSize %Used Active Auto Type
hd6 hdisk0rootvg 512MB 1 yes yeslv
9、系统性能是否有瓶颈
# topas
# vmstat 1 10
kthrmemory page faultscpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 110029 408618 0 0 0 00 0 4 602 75 0 1 99 0
0 0 110031 408616 0 0 0 00 0 1 562 54 1 0 99 0
0 0 110031 408616 0 0 0 00 0 3 628 84 0 0 99 0
# iostat 1 10
tty: tin toutavg-cpu: % user % sys % idle % iowait
0.0394.00.0 0.0 100.0 0.0
Disks:% tm_act Kbps tpsKb_read Kb_wrtn
hdisk0 0.0 0.0 0.0 0 0
hdisk1 0.0 0.0 0.0 0 0
cd0 0.0 0.0 0.0 0 0
10、网络与通讯检查
# ifconfig -a
# netstat -in
Name Mtu Network AddressIpkts IerrsOpkts Oerrs Coll
en0 1500 link#2 0.9.6b.3e.6.ac1964 0 534 0 0
en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0
lo0 16896 link#1 267 0 413 0 0
lo0 16896 127 127.0.0.1 267 0 413 0 0
# netstat -rn //察看路由情况
Routing tables
Destination Gateway Flags Refs Use If Exp Groups
Route Tree for Protocol Family 2 (Internet):
127/8127.0.0.1 U 7 142 lo0 - -
192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>
# vi /etc/hosts //察看 hosts 文件有否特殊的定义
# ping ****
#lsattr -El inet0 //路由的检测
authm 65536 Authentication Methods True
hostname h24 Host NameTrue
gateway Gateway True
route net,,0,172.16.23.81 RouteTrue
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
11、有否符合要求的系统备份
第一次去可以先询问客户关于备份的策略
# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期
-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data
# lsvg -l rootvg //察看有否符合要求的数据备份和保护
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd4 jfs1 1 1open/syncd/
hd2 jfs11111open/syncd/usr
hd10opt jfs1 1 1open/syncd/opt
oraclelvjfs2 80160 1open/syncd/oracle
loglv00 jfs2log1 1 1open/syncdN/A
testlv jfs10201closed/syncd /tmp/test
如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
12、系统 Dump 设置是否正确
# sysdumpdev -l
primary /dev/hd6
secondary/dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dumpFALSE
dump compression OFF
# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull
# sysdumpdev -P -c
13、HACMP 测试
# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail
# /lssrc -g cluster
14、maxpout, minpout 系统参数
如果系统中运行了HACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24
# lsattr -El sys0|grep maxpout
//maxpout 用途: 对文件指定未决 I/O 的最大数目
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)
# lsattr -El sys0|grep minpout
//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)
15、syncd 参数
# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间
nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &
值: 缺省值:60;范围:1 到任何正整数
显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot
更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序
syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。
诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。
调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整
性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。
更改命令为:
#vi /sbin/rc.boot
16、aio 参数 //异步 I/O 可调参数
# lsdev -C|grep aio
察看状态是否是 available
# lsattr -El aio0
minservers 1 MINIMUM number of serversTrue
maxservers 10MAXIMUM number of serversTrue
maxreqs4096 Maximum number of REQUESTS True
kprocprio 39Server PRIORITY True
autoconfig available STATE to be configured at system restart True
fastpath enableState of fast path True
# smit aio //可以更改参数
17、检查 errdaemon, srcmstr 是否正常运行
# ps -ef|grep err
# ps -ef|grep src
18、 系统硬件诊断
# diag
->Diagnostic Routines
->System Verification
->All Resources
->F7 或者 Esc+7
19、补丁程序 PTF 是否满足要求,当前系统补丁版本
#oslevel -r
5300-04
#instfix -i|grep
All filesets for 5.3.0.0_AIX_ML were found.
All filesets for 5300-01_AIX_ML were found.
All filesets for 5300-02_AIX_ML were found.
All filesets for 5300-03_AIX_ML were found.
All filesets for 5300-04_AIX_ML were found.
All filesets for 5300-05_AIX_ML were found.
# lscfg -vp //检查所有设备的微码
20、收集系统信息放到/tmp/ibmsupt
# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)