数据中心机房巡检管理该检查什么？_服务器知识

那么，一般来说，数据中心机房巡检管理都应该检查什么呢？一般来说，数据中心机房巡检管理要包括：进行服务器的检查，对系统数据库进行备份以及软件系统的检查；进行机房网络设备的检查；进行公司网络状态的检测。此外还要及时查找、发现网络及信息系统设备隐患，排除故障。以下是某公司数据中心机房巡检管理的具体要求，供大家参考。 1.巡检期间，进行状态检查，若发现问题，如计算机机房物理环境异常、设备状态异常、网络或应用系统故障，应立即按操作规程执行进行恢复操作。（1）电源、UPS：检查机房供电状况，UPS工作情况、指示状态。（2）服务器：检查服务器是否当机，服务器（磁盘阵列）硬盘灯指示是否正常。（3）机房环境：检查机房空调工作状态，机房温度。（4）网络设备：检查网络设备，包括交换机、路由器、防火墙等及其属设备。检查设备工作状态。（5）网络通道：检查内外网络通道状态，包括公司内部局域网、公司与INTERNET、公司至各合作单位的网络通道状态。（6）电话通道：检查电话系统通信及手机通信是否畅通。（7）SQL SERVER2005数据库：检查信息系统数据库服务是否正常。 2.如果故障按恢复规程无法有效恢复，特别是当发生机房环境（动力、空调）故障、关键的设备、网络、系统、服务如无法及时恢复时，应立即通知总经理等相关领导，由相关领导协调资源进行故障处理。 3.故障处理过程必须在机房日常巡检表的备注栏中详细记录，以备查阅。

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615"

>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#>lssrc -g cluster

Subsystem GroupPID Status

clstrmgrES cluster 16334active

一般上 hacmp.out 的位置： /usr/sbin/cluster/ 或者 /tmp/

然后找到最近的 hacmp.out 文件，察看有没有错误信息

6、文件系统检查

# df -k

Filesystem1024-blocks Free %UsedIused %Iused Mounted on

/dev/hd4 131072101568 23% 2268 4% /

/dev/hd2 1441792 31256 98%3605611% /usr

/dev/hd9var131072117048 11% 418 2% /var

看看有没有超过 90% 使用率的，建议用户改善

7、逻辑卷有否 "stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1closed/syncd N/A

hd6 paging 4 4 1open/syncdN/A

hd8 jfslog 1 1 1open/syncdN/A

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd9var jfs1 1 1open/syncd/var

如果系统还有其他卷组，也需要察看

8、内存交换区的使用率是否超过 70%

# lsps -a

Page Space Physical Volume Volume GroupSize %Used Active Auto Type

hd6 hdisk0rootvg 512MB 1 yes yeslv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthrmemory page faultscpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 00 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 00 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 00 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin toutavg-cpu: % user % sys % idle % iowait

0.0394.00.0 0.0 100.0 0.0

Disks:% tm_act Kbps tpsKb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network AddressIpkts IerrsOpkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>

# vi /etc/hosts //察看 hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True

hostname h24 Host NameTrue

gateway Gateway True

route net,,0,172.16.23.81 RouteTrue

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的 image 文件，记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd10opt jfs1 1 1open/syncd/opt

oraclelvjfs2 80160 1open/syncd/oracle

loglv00 jfs2log1 1 1open/syncdN/A

testlv jfs10201closed/syncd /tmp/test

如何察看数据保护方式 RAID10/RAID5，RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary/dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dumpFALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail

# /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy，将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途：对文件指定未决 I/O 的最大数目

值：缺省值：0（不检查）；范围：0 到 n（n 应该是 4 的倍数加 1）

# lsattr -El sys0|grep minpout

//指定一个基点，在该基点处，已达到 maxpout 的程序可以继续写入文件

值：缺省值：0（不检查）；范围：0 到 n（n 应该是 4 的倍数，且大于或等于 4 小于 maxpout）

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &

值：缺省值：60；范围：1 到任何正整数

显示： grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改：更改在下次引导后有效，而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断：当 syncd 正在运行时，文件的 I/O 被阻塞了。

调整：在缺省级别上，这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小，会导致性能下降。

更改命令为：

#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数

# lsdev -C|grep aio

察看状态是否是 available

# lsattr -El aio0

minservers 1 MINIMUM number of serversTrue

maxservers 10MAXIMUM number of serversTrue

maxreqs4096 Maximum number of REQUESTS True

kprocprio 39Server PRIORITY True

autoconfig available STATE to be configured at system restart True

fastpath enableState of fast path True

# smit aio //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、系统硬件诊断

# diag

->Diagnostic Routines

->System Verification

->All Resources

->F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求，当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

1、检查安全设备状态查看安全设备的运行状态、设备负载等是否正常；检查设备存放环境是否符合标准；对设备的版本进行检查，看是否有升级的必要；梳理分析设备的策略，清理过期无效策略，给出优化建议；此外还需查看安全设备是否过维保期等一系列的安全检查操作。根据网络安全等级保护的要求，对安全策略和配置做好调整和优化。2、安全漏洞扫描对网络设备、主机、数据库、应用系统进行漏洞扫描，并根据扫描结果进行综合分析，评估漏洞的危害大小，最终提供可行的漏洞解决方案。3、安全日志分析定期为用户信息系统内安全设备产生的海量日志进行深度挖掘和分析，对用户信息系统内安全设备产生的日志进行梳理，发现潜在的风险点。通过提供日志分析，及时掌握网络运行状态和安全隐患。4、补丁管理在前期安全扫描的基础上，对存在严重系统漏洞的主机进行补丁更新，从而及时消除因为系统漏洞而产生的安全风险。定期的安全巡检能及时发现设备的异常情况，避免网络安全事故及安全事故的的发生，发现企业安全设备的异常情况，并能及时处理，其目的是为了保障企业安全设备的稳定运行。安全巡检，顾名思义，巡与检，不仅要巡回，更要检查。巡检不是简单地在机房来回走几遍，其重点在于检查设备是否存在安全隐患。不管是日常维护的设备，还是不常使用的设备，要面面俱到，梳理排查信息基础设施的运行环境、服务范围及数据存储等所面临的网络安全风险状况。设备的定期安全巡检，是防范网络攻击的其中一方式，做好日常安全维护，才能有效减少攻击频率。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/739973.html

数据中心机房巡检管理该检查什么？

发表评论

评论列表（0条）