AIX小型机服务器巡检操作

AIX小型机服务器巡检操作,第1张

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615"

>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#>lssrc -g cluster

Subsystem GroupPID Status

clstrmgrES cluster 16334active

一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/

然后找到最近的 hacmp.out 文件,察看有没有错误信息

6、文件系统检查

# df -k

Filesystem1024-blocks Free %UsedIused %Iused Mounted on

/dev/hd4 131072101568 23% 2268 4% /

/dev/hd2 1441792 31256 98%3605611% /usr

/dev/hd9var131072117048 11% 418 2% /var

看看有没有超过 90% 使用率的,建议用户改善

7、逻辑卷有否 "stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1closed/syncd N/A

hd6 paging 4 4 1open/syncdN/A

hd8 jfslog 1 1 1open/syncdN/A

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd9var jfs1 1 1open/syncd/var

如果系统还有其他卷组,也需要察看

8、内存交换区的使用率是否超过 70%

# lsps -a

Page Space Physical Volume Volume GroupSize %Used Active Auto Type

hd6 hdisk0rootvg 512MB 1 yes yeslv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthrmemory page faultscpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 00 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 00 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 00 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin toutavg-cpu: % user % sys % idle % iowait

0.0394.00.0 0.0 100.0 0.0

Disks:% tm_act Kbps tpsKb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network AddressIpkts IerrsOpkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>

# vi /etc/hosts //察看 hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True

hostname h24 Host NameTrue

gateway Gateway True

route net,,0,172.16.23.81 RouteTrue

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd10opt jfs1 1 1open/syncd/opt

oraclelvjfs2 80160 1open/syncd/oracle

loglv00 jfs2log1 1 1open/syncdN/A

testlv jfs10201closed/syncd /tmp/test

如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary/dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dumpFALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail

# /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途: 对文件指定未决 I/O 的最大数目

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)

# lsattr -El sys0|grep minpout

//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &

值: 缺省值:60;范围:1 到任何正整数

显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。

调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。

更改命令为:

#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数

# lsdev -C|grep aio

察看状态是否是 available

# lsattr -El aio0

minservers 1 MINIMUM number of serversTrue

maxservers 10MAXIMUM number of serversTrue

maxreqs4096 Maximum number of REQUESTS True

kprocprio 39Server PRIORITY True

autoconfig available STATE to be configured at system restart True

fastpath enableState of fast path True

# smit aio //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、 系统硬件诊断

# diag

->Diagnostic Routines

->System Verification

->All Resources

->F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求,当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

相信多数的企业都会有服务器的存在,虽然说服务器的寿命是很长的,但是服务器同时也是很娇弱,需要我们的工作人员来进行日常的维护,下面就来说说企业服务器日常维护有哪些事项:

1.做好标记,方便维护

由于企业局域网内部的计算机相对比较多,网线繁多,如果发生故障了也不知道是那条线搭哪条线,所以对于连接计算机与路由器的网线要做好标记,在路由器端要标示连接哪台主机,在计算机端要标示是连接到路由器的哪个端口,以方便维护工作。

2.为企业路由器提供一个良好工作环境

在企业路由器的说明书中厂商已经明确了路由器正常运转的环境指标,所以企业在使用的过程中应尽量为企业路由器提供一个符合厂商规定的环境指标的工作环境,不然的话将影响路由器的正常工作,甚至还有可能会损坏路由器。一般需注意的是电源的电压、工作温度、存贮温度、工作的相湿度、存贮的相对湿度等方面。

尤其要注意防潮防发热, 由于企业路由器是由许多紧密的电子元件组成的,这些电子元件会因潮湿而引起电路短路,因此务必要将它放置在干燥的地方。特别是在梅雨时节,更要注意保持企业路由器工作环境的干爽。另外,由于企业路由器在运行过程中设备的芯片会散发出大量的热,如果不及时将其散发,则有可能导致芯片的热度超出指标范围,而导致企业路由器工作异常。因此,最好将路由器放置在通风干爽的位置,千万不要用装饰布之类盖住路由器,也不要在路由器周围堆放书籍、杂物之类的,要让路由好好透透气才行。

3.防电磁干扰

数据在传输过程中,会受到多方面因素的影响,电磁干扰就是其中主要的一个方面,例如音箱、无线电收发装置等设备若与企业路由器靠得太近的话,网络信号将可能会受到外界辐射的影响,因而尽量把企业路由器放在一个独立的地方,离那些会产生电磁干扰的设备远一些。

4.在企业路由器通电过程中,不要随意插拔

当路由器加电以后,就尽量不要进行带电插拔的操作,因为这样的操作很容易造成电路损坏,尽管有很多企业路由器的生产商已采取了一定的防护措施,但仍需分外注意,以免对企业路由器造成不必要的损坏。

5.做好防雷击措施

雷区在我国并不少见,以广州市为例,每年平均的雷暴天气可达80.3次,所以因为雷击而遭受损害的路由器用户数量也为数不少。根据Qno侠诺科技的工程师调查分析得出,30%的网络设备故障都与雷击有直接的关系。虽然很多的时候雷击所造成的感应电压并不能一次就把企业路由器彻底报销,但是即使当时没有造成网络故障,但企业路由器若再经常受到过压冲击,就很容易引起路由器设备零件的老化,大大地缩短了其使用寿命,对于旧的企业路由器来说就更加容易遭受破坏。这样的话,如果没有相应的接地保护措施,企业路由器就很容易遭受雷击等自然灾害的破坏,严重影响网络的稳定运行。所以企业要切实做好防雷击措施,企业用户可以通过做好设备接地装置和安装有效的防雷保护系统这两种方法来防雷击。

6.防断电

在如今到处闹“电慌”的形势下,市电对企业实施拉闸限电早已见惯不怪了,而且供电过程中还会因电压不足而出现时断时续,电源忽高忽低(电压过低,如低于150V或过高,如高于260V)等此类不稳定问题,而电源时常不稳定就很容易会导致企业网络中的路由器设备无法连续正常工作。如果企业路由器经常在这种不正常供电环境下工作的话,不但严重影响了路由器对企业网络提供的服务质量,长期下去的话还会大大缩短企业路由器的使用寿命。

所以要保障企业路由器的“稳健长寿”,最好的方法就是为企业路由器配备性能优良稳定的UPS电源系统。UPS电源可以有效解决电网存在的诸如:断电、雷击尖峰、浪涌、频率震荡、电压突变、电压波动、频率漂移、电压跌落、脉冲干扰等等问题,若为企业路由器配备了UPS电源系统后,就不用再担心电压的不稳或者是突然断电会使路由器遭受损坏了。

7.尽量避免撞击、震荡

当企业路由器受到撞击和震荡时,有可能造成路由器设备的零部件松动,甚至会直接造成硬件损坏,因此在移动企业路由器后重新安装时,建议最好把路由器固定在特定的机架上,这样做不仅可以避免路由器受到撞击、震荡,还可以使线缆不易脱落,确保企业路由器正常通信。

8.有效御防企业路由器遭受静电的入侵

静电放电时很容易对企业路由器造成硬件损坏,随着网络设备芯片工艺的不断进步,芯片的速度和功能都有所提升,但芯片却变得更加很脆弱。一个不太高的静电电压就能将晶体管击穿,一个不太大的静电电流就能将连线熔断,而静电是无处不在的,静电是网络设备的无形杀手,所以要对企业路由器进行有效的维护,必须采取正确的防范静电的措施。具体的做法有以下两点:

1)企业路由器应保持良好的接触,要有可靠的接地装置。

2)对于一些气候干燥的地方的企业(如北方地区的企业)在干燥季节应适当使用加湿器,保持空气的一定湿度,以避免静电在设备、办公设备和企业网络使用人员的身上大量积累。

9.让企业路由器远离灰尘的烦嚣

灰尘之于企业路由器的危害也是不容忽视的,如果设备上的灰尘过多,而又没有得到及时的清理,那么企业网络就可能会出现一些莫名其妙的故障,轻则造成接口的接触不良,重则就有可能烧毁企业路由器里面的芯片。可见,企业路由器的除尘功夫也是相当重要的,不容忽视,也不得有误。

10.注意安全防范

企业路由器在实际使用中,除正确安装设置外,还要设置好管理口令,并注意保密,不要让管理员以外的其他人随便接近路由器,更不要让其他人随意对路由器进行配置。

11.定期进行企业路由器的数据备份

为了防止网络意外瘫痪而丢失原来的配置,应定期对企业路由器的配置进行备份。进行备份之前首先要建立一台tftp服务器,这比较容易,选择一台PC机,运行CISCO TFTP SERVER软件即可。然后将路由器配置备份到备份服务器中,具体的操作步骤如下:

1)Telnet到要备份的路由器,telnet xxx.xxx.xxx.xxx(服务器IP地址)

2)检查路由器与tftp服务器是否连通,ping xxx.xxx.xxx.xxx (tftp服务器IP 地址)

3)用copy running-config tftp将配置文件备份到tftp服务器

4)按命令的要求输入tftp服务器IP 地址和目的文件名并进行确认

12.经常更新企业路由器的系统软件

企业路由器的操作系统就像网络操作系统一样,也需要时常更新,以便纠正一些编程错误、软件瑕疵和缓存溢出等问题。因为路由器的系统软件往往有许多版本,每个版本支持的功能有所不同。当当前的软件版本不支持某个功能时将会导致企业路由器部分功能的丧失,而只要进行相应的软件升级就能是丧失的功能复原了。所以需要经常向路由器厂商查询当前该款企业路由器的更新和操作系统的版本,要是发现有新的版本,应该尽更新。

以上就是企业服务器日常维护的工作事项了,北京浩然泰同科技有限公司可提供月度巡检以及年度巡检服务,7*24小时在线远程服务,北京周边地区24小时上门服务。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/407856.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-22
下一篇2023-05-22

发表评论

登录后才能评论

评论列表(0条)

    保存