求一个linux服务器巡检脚本,50多台服务器,结果要做成一个excel表格,每天手动开始执行即可!

求一个linux服务器巡检脚本,50多台服务器,结果要做成一个excel表格,每天手动开始执行即可!,第1张

你可以在每台服务器上面放同一个脚本。

这个linux脚本加入cron,这个脚本每天定时把df -k   free -m   uptime   这三项的结果保存到文本文件里面,比如uptime可以保存到uptime_20140112.txt,以此类推。

然后脚本把这些文件ftp到一个单独的服务器上面,比如192.168.1.100,这个服务器可以是windows。

然后写个程序读当天或者几天的txt文件,然后输出到excel。可以用你熟悉的语言来写,应该不难。

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615"

>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#>lssrc -g cluster

Subsystem GroupPID Status

clstrmgrES cluster 16334active

一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/

然后找到最近的 hacmp.out 文件,察看有没有错误信息

6、文件系统检查

# df -k

Filesystem1024-blocks Free %UsedIused %Iused Mounted on

/dev/hd4 131072101568 23% 2268 4% /

/dev/hd2 1441792 31256 98%3605611% /usr

/dev/hd9var131072117048 11% 418 2% /var

看看有没有超过 90% 使用率的,建议用户改善

7、逻辑卷有否 "stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1closed/syncd N/A

hd6 paging 4 4 1open/syncdN/A

hd8 jfslog 1 1 1open/syncdN/A

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd9var jfs1 1 1open/syncd/var

如果系统还有其他卷组,也需要察看

8、内存交换区的使用率是否超过 70%

# lsps -a

Page Space Physical Volume Volume GroupSize %Used Active Auto Type

hd6 hdisk0rootvg 512MB 1 yes yeslv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthrmemory page faultscpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 00 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 00 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 00 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin toutavg-cpu: % user % sys % idle % iowait

0.0394.00.0 0.0 100.0 0.0

Disks:% tm_act Kbps tpsKb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network AddressIpkts IerrsOpkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>

# vi /etc/hosts //察看 hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True

hostname h24 Host NameTrue

gateway Gateway True

route net,,0,172.16.23.81 RouteTrue

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd10opt jfs1 1 1open/syncd/opt

oraclelvjfs2 80160 1open/syncd/oracle

loglv00 jfs2log1 1 1open/syncdN/A

testlv jfs10201closed/syncd /tmp/test

如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary/dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dumpFALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail

# /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途: 对文件指定未决 I/O 的最大数目

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)

# lsattr -El sys0|grep minpout

//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &

值: 缺省值:60;范围:1 到任何正整数

显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。

调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。

更改命令为:

#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数

# lsdev -C|grep aio

察看状态是否是 available

# lsattr -El aio0

minservers 1 MINIMUM number of serversTrue

maxservers 10MAXIMUM number of serversTrue

maxreqs4096 Maximum number of REQUESTS True

kprocprio 39Server PRIORITY True

autoconfig available STATE to be configured at system restart True

fastpath enableState of fast path True

# smit aio //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、 系统硬件诊断

# diag

->Diagnostic Routines

->System Verification

->All Resources

->F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求,当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

1.用户在管理端软件制定设备巡检计划,包括定义相应的检测区域,检查点,检测项目等内容;2.巡检前,巡检人员先从管理端下载相应的巡检任务(巡检内容)至巡检仪终端3.下载巡检任务后, 操作人员就可直接手持巡检仪根据巡检路线进行检测4.检查完毕后,操作人员将检查结果通过网络上传到系统数据库中;5.检查结果上传至数据库中后,系统可直接生成设备巡检分析报表,方便管理人员作统计分析

一、为什么石油石化企业需要设备巡检系统

石油石化工厂的危险性:石油石化是高温高压、易燃易爆有毒的危险行业,生产工艺复杂,装置大型化,微小的事故可能会造成重大影响,而且一旦发生事故就容易造成群死群伤的恶性事故,如重庆12·23特大井喷,造成243人死亡,2142中毒住院治疗,65000名当地居民被紧急疏散,各种经济损失达6432万元的重大事故。所以对石油石化行业对安全管理要求极为严格。

传统的巡检方法不能高效、严格的管理巡检人员:如今石油石化系统安全巡检工作主要是通过安检员的定期巡查和上级督查部门的不定期抽查两种方式:在巡查地点或设备处放置一可拨动式表盘,安检员每到一个地方后,拨动表盘时钟指向巡查时间;还有的是通过投纸条,安检员把写有巡检时间的纸条放入纸箱内,以此来记录巡查情况。上级部门再对安检员的巡查情况进行抽查。由此可以看出,这种考核方式是很不科学的,即难核实时间,又很容易让某些安检员放松警觉,很可能因为一个小的操作失误就有可能导致灾难性的后果。思想工作的宣传固然重要,但应该加强科学化的安全巡检管理方法才是避免事故发生的有效途径。

工厂设备每天需要点检参数、检查零件是否完好:巡检人员以往是用纸制的记录本对设备的参数进行选择,这样很难掌控巡检人员的巡检时间、巡检数据的真实性。

二、石油石化企业应该选择什么样的设备

有防爆资格证:石油石化企业的工厂环境对电子产品要求比较严格,正常来说工厂工人是连手机都不允许带入工厂内部的,以免由于高温高压、易燃易爆设备带来不必要的事故。

少接口的巡检设备:工厂内部粉尘比较多,一般带的USB口通讯的设备比较容易损坏,所以应该选择通讯座传输数据或红外传输数据的设备。

选择适合自己的设备:如若需要记录点检工厂设备的参数、运行状态、到达各个设备的时间、日期、名称,则需选用中文V8数据采集器。数据采集器多种多样,一般都是带显示的,由于工厂环境有的高温高压,所以需要选择OLED显示屏的设备,而不是普通液晶,带OLED显示屏工作温度在 -40℃ ~ +80℃,抗震能力高于液晶显示屏,而且在阳光下仍然显示清晰。

三、石油石化设备巡检管理系统简介

巡检系统就是以点检为核心的设备维修管理体制,是实现设备可靠性、维护性、经济性,并使上述三方面达到最佳化管理的机制,是按照预先制定的技术标准,定人、定点、定期、定方法、定标准地对设备进行检查的一种管理方法。

唯实保安巡检管理系统包括:巡检点、V8数据采集器、红外通讯座、远程通讯座(可选)、管理软件(网络版、互联巡检版)等主要部分。

四、工作过程:以下为两种巡检系统的工作流程

网络版软件V9.0:工厂内部设立一台服务器(windows2003系统、SQL Server2005数据

库),将V9.0软件安装在这台服务器上,只要有广域网或局域网的地方就可以查询或上传巡检数据,可以实现上级管理下

级的部门管理,给各部门负责人分配权限,使得各尽其责。适合全国连锁或大型工厂企业使用。V9.0系统拓扑图及工作流程如右侧:

1. 安装及配置服务器:安装SQLServer2005数据库、配置IIS。

2. 设置软件:设置巡检点、巡检设备、巡检设备要点检的项目、巡检人员、巡检计划等。我们以某钢铁集团为例,设置萘打包输送泵、转鼓结晶机、配电柜三个设备的项目: 设备名称 点检项目 点检周期及分工 设备状态 点检方法 萘打包输送泵A 出口压力

地脚/接地

震动

声响

联轴器

油位

温度

密封

盘车

运行状态 1次/2小时 运行/停止 目视、手感、听声、仪器、其他 转鼓结晶机D 振动

声响

地脚/接地

油位

联轴器

密封

温度

电流

盘车

运行状况

固萘生产量 生产部 1次/2小时

维修部 1次/周 运行/停止 目视、手感、听声、仪器、DSC 201配电柜1# 电流

电压

功率因数 维修部 1次/周 运行/停止 目视、手感、听声、仪器、DSC 3. 下载档案:将设置好的巡检点、巡检设备、巡检设备要点检的项目、巡检人员、巡检计划形成档案下载到V8数据采集器中。

4. 安装巡检点:将巡检点安装到需要点检的设备附近。

5. 巡检:巡检人员在巡查开始时首先选择V8数据采集器中巡检人员姓名,即先确定巡检人员身份,然后开始一条线路的设备点检,读取巡检点后V8数据采集器屏幕显示该地点的巡检项目内容,巡检人员按提示输入该地点的现场状况信息,所有项目输入完毕后采集器保存记录,巡检记录内容由设备名称、读卡时间、卡号及巡检项目等组成。巡检过程中可本机查询全部被检设备、任务列表、已巡检项目记录、下一个巡检地点。

6. 上传巡检数据:上传数据有两种途径,一是在车间或者办公室准备一台或多台电脑,这台电脑需要和服务器连网(互联网、局域网均可),将巡检数据通过近程红外通讯座上传到此台电脑上,然后通过网络上传到服务器上。二是在车间或者办公室准备一台或多台远程通讯座以网线或电话线两种连接服务器,将巡检数据通过远程通讯座红外模式上传,然后通过网络上传到服务器上,这样即使工厂内部没有电脑也可以上传数据,不必担心由于电脑中病毒而无法上传数据的烦恼。

7. 查看巡检数据:只要和服务器在同一个网络内(互联网、局域网)的电脑都能查看数据

互联巡检版软件:唯实设立一台公共服务器,用户无需提供操作系统、数据库、计算机管理

员等,唯实工程师负责设置及维护用户信息,用户只需买回产品即可使用,无需设置软件、接受培训;而且只要有网络的地方即可上传、查看巡检数据;具有网络版V9.0的多级管理,权限分配等功能。工作流程及拓扑图如下右侧

1. 将要巡检的设备名称及项目等信息提供给唯实工程师,唯实工程师将帮您设置好巡检系统。

2. 待唯实工程师设置好一切后,将巡检档案下载到V8数据采集器中;将巡检点安装到要巡检的设备附近。

由于唯实保安巡检管理系统应用了计算机软件及自动识别等多方面的高新技术,因此巡检记录无法伪造,从而保证了统计结果的真实性。该系统为保安的巡检工作提供了科学的管理依据,可以彻底杜绝因为存在侥幸麻痹心理逃避巡检情况的出现。

设备巡检报表:

***统计结果可以根据不同需求统计。

例如:原始记录查询

查看2010-10-26 13:23——2010-12-07 13:23的巡检数据

说明:“合成压缩一楼”这个设备点需要点检“油站运行情况”、“油泄漏情况”、“温度”三个项目。其中“油站运行情况”是单选类型,需要选择正常与异常;“油泄漏情况”为多选类型,可同时选择多个选项;“温度”为数值类型,需要输入温度的数值。

五、为什么选择V8数据采集器

坚固耐用=2.5mm工程塑料外壳+防震防水护套+红外通讯。

OLED彩色显示屏,性能稳定,阳光下比彩色液晶显示更清晰,工作温度-40℃~ +80℃。

可下载巡检档案,包括:线路 →设备 → 巡检项(数值,单选,多选,文字)。

感应卡识读,每个RFID对应一个被巡检设备。

支持设备运行状态选择,每个设备最多可设定255个检查项,检查项支持数值型、状态选择型(单选、多选)、文字描述型;数值型项目可设定有效范围提示(如最高100℃,最低20℃)。

支持工作任何时间查询,可查询全部被检设备、任务列表、已巡检项目记录、下一个巡检地点。

可选择以太网通讯座代替PC向服务器传输巡检记录,可大量减少维护工作。

六、唯实保安巡检管理系统的技术指标数据采集器(V8)

电 源:3.6伏可充电锂电池,800mAH。液晶显示:160 x 128像素,彩色液晶显示器,国标一二级字库。

外 观:13.5(高)×5.8(宽)×2.4(厚)厘米,3毫米厚高强度聚碳酸脂(PC)材质;

键 盘:20个按键 + 1个复位键。

使用条件:环境温度 -20℃~+70℃;相对湿度 45%~95%;

通 讯:红外(IRDA),通讯速率57600bps。

显示界面:人性化的图标和中文菜单进行操作。

内 存:A:16Mb FLASH存储器,档案17000条,巡检记录20000条。

B:8Mb FLASH存储器,档案5000条,巡检记录12000条。

文字内存:每条信息 最长64个汉字或128 个数字/字母。可存储440条信息。

提示方式:声音与振动提示。

电池提示:开机界面显示电池状态,提示用户及时充电。

自动关机:可自由设定自动关机时长,减少电源消耗,增长使用时间。

巡检查询:可在机器上查询巡检记录。

文字录入:支持自定义信息输入,拼音输入法(T9)输入汉字,大写字母、小写字母、数字、标点等。

IAP 功能:具备在应用编程(In Aplication Program)功能,支持二次开发。

C P U :处理器具有在线编程功能,支持二次开发

红外通讯座(VT1)

产品类型: RS232/USB 红外通信座

接 口: RS232/USB

数据传输率:115.2Kbps

通信距离: 3~50 cm。

通信角度: -15度 ~ +15度。

工作电压: DC 5v

峰值功率: 0.5w

工作温度: 0~85摄氏度。

工作湿度: 10~90%

电子标签:埋放在巡检线路上,安全、可靠 、不易丢失及破坏、防水、防震、防腐,可在各种恶劣环境中使用。内码无不重复,无需供电。工作温度:-40℃--85℃

识读方式:非接触感应识读。

读取距离:3cm~10cm

频 率:125KHz(EM)

尺 寸:φ30mm圆片封装

互联网通讯座(VX5000N):代替客户端电脑上传巡检数据,无需像电脑那样的复杂维护。

巡检器将采集的巡检数据传到远程通讯座里,远程通讯座通过电话线或网线自动上传到网络服务器,然后通过网络随时随地可以查看到巡检数据。代替客户端电脑,因此可以减少病毒、系统损坏等维护,同时无需培训即可使用。内 存:16Mb,存贮13万条巡检记录

接 口:巡检器通讯RS232,RJ45,IRDA红外通信。

串 口:57600BPS。

以太网接口:10/100M自适应

尺 寸:200mm×40mm×60mm

电 源:DC9V(直流电源)

重 量:480g


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/97093.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-08
下一篇2023-03-08

发表评论

登录后才能评论

评论列表(0条)

    保存