AIX小型机服务器巡检操作_服务器知识

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615"

>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#>lssrc -g cluster

Subsystem GroupPID Status

clstrmgrES cluster 16334active

一般上 hacmp.out 的位置： /usr/sbin/cluster/ 或者 /tmp/

然后找到最近的 hacmp.out 文件，察看有没有错误信息

6、文件系统检查

# df -k

Filesystem1024-blocks Free %UsedIused %Iused Mounted on

/dev/hd4 131072101568 23% 2268 4% /

/dev/hd2 1441792 31256 98%3605611% /usr

/dev/hd9var131072117048 11% 418 2% /var

看看有没有超过 90% 使用率的，建议用户改善

7、逻辑卷有否 "stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1closed/syncd N/A

hd6 paging 4 4 1open/syncdN/A

hd8 jfslog 1 1 1open/syncdN/A

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd9var jfs1 1 1open/syncd/var

如果系统还有其他卷组，也需要察看

8、内存交换区的使用率是否超过 70%

# lsps -a

Page Space Physical Volume Volume GroupSize %Used Active Auto Type

hd6 hdisk0rootvg 512MB 1 yes yeslv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthrmemory page faultscpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 00 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 00 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 00 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin toutavg-cpu: % user % sys % idle % iowait

0.0394.00.0 0.0 100.0 0.0

Disks:% tm_act Kbps tpsKb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network AddressIpkts IerrsOpkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>

# vi /etc/hosts //察看 hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True

hostname h24 Host NameTrue

gateway Gateway True

route net,,0,172.16.23.81 RouteTrue

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的 image 文件，记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs1 1 1open/syncd/

hd2 jfs11111open/syncd/usr

hd10opt jfs1 1 1open/syncd/opt

oraclelvjfs2 80160 1open/syncd/oracle

loglv00 jfs2log1 1 1open/syncdN/A

testlv jfs10201closed/syncd /tmp/test

如何察看数据保护方式 RAID10/RAID5，RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary/dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dumpFALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail

# /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy，将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途：对文件指定未决 I/O 的最大数目

值：缺省值：0（不检查）；范围：0 到 n（n 应该是 4 的倍数加 1）

# lsattr -El sys0|grep minpout

//指定一个基点，在该基点处，已达到 maxpout 的程序可以继续写入文件

值：缺省值：0（不检查）；范围：0 到 n（n 应该是 4 的倍数，且大于或等于 4 小于 maxpout）

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 >/dev/null 2>&1 &

值：缺省值：60；范围：1 到任何正整数

显示： grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改：更改在下次引导后有效，而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断：当 syncd 正在运行时，文件的 I/O 被阻塞了。

调整：在缺省级别上，这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小，会导致性能下降。

更改命令为：

#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数

# lsdev -C|grep aio

察看状态是否是 available

# lsattr -El aio0

minservers 1 MINIMUM number of serversTrue

maxservers 10MAXIMUM number of serversTrue

maxreqs4096 Maximum number of REQUESTS True

kprocprio 39Server PRIORITY True

autoconfig available STATE to be configured at system restart True

fastpath enableState of fast path True

# smit aio //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、系统硬件诊断

# diag

->Diagnostic Routines

->System Verification

->All Resources

->F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求，当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

服务器运维工程师需要收集、整理所有技术问题和客户意见，反馈给相关部门或人员。下面是我为大家带来的服务器运维工程师工作的具体内容十篇，希望大家能够喜欢!

服务器运维工程师工作的具体内容1

职责：

1、负责公司网站服务器安装及配置

2、负责公司网站及服务器的稳定运行，监控网络状态、及时排除各种异常，优化配置软硬件资源

3、负责服务器和网站的安全工作，定期进行安全漏洞扫描分析和入侵检测并提出解决方案

4、负责数据库备份、数据迁移、数据监控，编制汇总故障、问题，定期提交汇总报告

5、负责公司网站服务器集群部署，优化负载及容灾

6、负责网络监控和应急反应，以确保网络系统有7 * 24小时的持续运作能力。

任职资格：

1、大专以上学历，熟悉信息安全体系和安全标准，对信息安全体系和安全风险评估有较全面的意识

2、精通服务器及网络安全产品配置原理，如防火墙、身份认证、漏洞评估、网络防病毒

3、熟悉TCP/IP协议，熟练掌握网络相关设备的配置技术，如路由器、交换机、防火墙、负载均衡器等，有服务器集群部署相关经验

4、熟悉常见的网络攻击和防守技巧(包括服务漏洞扫描、程序漏洞分析检测、入侵和攻击分析追踪、病毒、木马防范。熟悉SQL注入原理和手工检测)

5、熟悉Linux下各种环境搭建配置及维护

6、熟悉MYSQL等数据库配置、维护、优化

7、精通shell、python、perl、PHP脚本语言之一

8、具有至少2年以上的共有云运维经验。

服务器运维工程师工作的具体内容2

职责：

1.负责IDC机房内服务器的日常维护工作

2.服务器系统的安装/调试/环境配置/安全配置

3.排除简单网络故障,交换机简单调试及流控

4.和其他部门协调,支持其他部门工作

5.按公司规定接受和处理客户问题,为客户提供优质服务及日常上、下架工作。

任职要求：

1、计算机或相关专业专科以上学历。

2、熟悉Windows/Linux常用网络服务的系统安装配置与使用

3、熟悉二层交换机,有网络维护经验者优先考虑

4、熟悉Docker者优先考虑

5、有良好的沟通能力、团队协作精神

服务器运维工程师工作的具体内容3

职责：

1、执行和监督执行服务器系统管理制度

2、日常驻场维护工作：PC服务器设备维护，发现异常后的应急处理以及故障的排查和解决针对PC服务器系统提出相应的软硬件优化方案

3、客户服务、系统集成及相关工作

4、运维服务文档，总结报告撰写等相关工作。

任职条件:

1、大专或以上学历

2、两年以上PC服务器系统维护经验

3、精通PC服务器硬件架构、Windows server、Linux等操作系统配置

4、熟悉VMWARE虚拟机系统和配置。

服务器运维工程师工作的具体内容4

1、数据中心服务器计算与存储规划、建设和运维，

2、系统建设和优化项目管理，制订和实施网络优化方案，提升平台指标，提高业务系统的网络性能和速度，提升使用效率。

3、负责故障排查和应急处理，确保任何突发情况都能高效响应，保证系统7x24小时正常稳定运行

4、制订服务器和存储相关系统建设标准，推进实现平台运维标准化管理。

5、网络安全推进和协同。

服服务器运维工程师工作的具体内容5

1、对服务器进行日常维护，确保各项服务连续正常运行，无重大事故

2、负责服务器存储网络等基础平台的技术维护和问题处理

3、负责执行大客户服务项目的定制化服务配置和硬件安装等处理工作

4、了解操作系统安装与配置

5、具备一定的网络相关故障解决能力

6、熟悉主流厂商PC服务器硬件安装与配置

7、Windows、Linux、VMware等日常管理、维护

8、负责服务器异常或故障的受理、跟踪、解决以及统计分析

服务器运维工程师工作的具体内容6

职责：

1、负责IBM、HP、DELL等业界主流品牌的服务器安装配置及日常维护工作

2、负责VMWare虚拟化平台项目实施及维护工作

3、负责EMC、DELL等企业级存储及其SAN网络的安装配置及日常维护工作

4、负责服务器集群拓扑及SAN存储网络部署

5、解决实施工作中的技术难题，挖掘客户需求，提出针对性的解决方案

6、编写各类维护文档，譬如：实施方案、实施报告、巡检报告、故障处理报告等等。

岗位要求：

1、计算机相关大专以上学历，3年以上IT运维或机房管理工作经验

2、熟悉主流X86服务器(IBM/HP/华为)和存储的运维和管理

3、熟悉思科、华为等主流网络设备的配置和问题排错

4、熟悉vmware虚拟化架构技术，具有虚拟化的搭建和运维经验，对vmware的存储、灾备、网络、安全、升级、虚拟机管理、监控和性能等有深刻的理解

5、有一定的信息安全实施经验，对 VPN ，防火墙，上网行为管理以及内网安全有深入理解和实操经验

6、熟悉服务器运维及服务器架设，包括AD域，IIS，DNS、双机集群等各类windows服务器的配置管理

7、熟悉openstack或者cloudstack任意一种平台的部署实施，有成功搭建或者部署经验优先。

服务器运维工程师工作的具体内容7

职责：

1. 负责或参与智能连接产品(智能耳机，音箱等)后端系统的设计、代码实现

2. 参与制定前后端业务流程、接口协议、文档输出等

3. 负责或参与前端程序(APP, Device)的对接、调试

4. 持续迭代开发，改善系统性能，用户体验。

岗位要求

1. 五年以上服务器端开发经验,一年以上Go语言开发经验

2. 熟悉linux，对服务器性能优化有一定了解，有高并发项目经验优先

3. 熟练掌握nginx、mongodb、Redis等开源组件

4. 了解服务器安全配置相关的知识

5. 熟悉多线程和网络编程，有分布式系统项目经验者优先

6. 有可穿戴产品后台开发经验者优先。

服务器运维工程师工作的具体内容8

职责：

1、负责公司系统集成项目中HP、DELL等服务器及IBM、NetApp、HDS等存储产品的初始化安装、技术支持、维护等工作。

2、根据客户的应用环境及需求，独立完成整体项目规划和实施

3、创建相关的技术实施方案，并在实施过程中提供技术支持

4、服务器发生系统故障时的分析与解决，在售后服务体系中提供现场支持工作。

岗位要求：

1、计算机、通信工程等相关专业毕业，大专及以上学历

2、两年以上服务器工程师经验，熟练掌握Linux/Windows系统，了解Oracle、SQL sever数据库

3、熟悉HP、Dell等主流服务器厂商产品，具备系统、数据库和存储的整体概念，对存储应用系统有一定的了解

4、具有以下技能资格优先考虑：

服务器运维工程师工作的具体内容9

职责：

1.负责项目中Wintel服务器的搭建部署配置,排错、故障处理, 备份恢、等工作。

2.负责项目中Wintel服务器HA测试，BUR 测试，DR测试等相关工作。

3.熟悉Windows server的日常运维，如日常巡检、备份、故障排查、漏洞修复、优化等工作。

4.熟悉微软AD、Exchange、SCCM等相关应用运维工作。

5.熟悉VMWARE虚拟化平台的日常运维管理

6.熟悉EMC存储设备。

8.DCS项目管理经验

任职要求:

1.6年以上金融行业Wintel server及AD、Exchange、SCCM运维管理经验。

2.精通Windows server 2008/2012/2016

3.熟练使用powershell编写脚本。

4.熟练使用VM环境，具备VMWARE相关知识。

5.良好的团队协作沟通能力，较强的学习能力。

6.具备较好的英语书写能力及文档方案写作能力。

7.熟悉ITIL服务流程。

8.具备MSCE,VMWARE及ITIL ,PMP相关认证者优先考虑。

9.有良好的抗压能力。

10.金融企业数据中心迁移项目经验。

服务器运维工程师工作的具体内容10

职责：

1.负责健康平台等系统后端服务开发

2.参与项目的需求分析，负责项目的设计和开发

3. 良好的编程习惯，根据项目任务计划独立按时完成高质量的编码和测试工作

4. 配合测试人员进行bug修复、完善产品功能体验。

任职要求：

1.精通Golang或PHP、Node.js等语言，3年以上Web开发经验，具有高并发开发工作经验

2.精通 Mysql及Nosql 数据库(Memcached、Redis 等)

3.熟悉一种 web开发框架(Golang/PHP)

4.对分布式、高可用、高性能，海量数据处理设计及开发有一定实践经验

5.较强的分析问题解决问题能力，工作踏实上进，有良好的团队合作意识 ,有大型互联网工作经验优先。

服务器运维工程师工作的具体内容相关文章：

★ 运维服务工程师的具体职责

★ 网络运维工程师岗位职责具体内容

★ 系统运维工程师工作职责都有哪些

★ 系统运维工程师工作职责具体内容

★ 网络运维工程师岗位的基本职责概述

★ 系统运维工程师工作职责与任职要求

★ 网站运维工程师的具体职责范围

★ 网站运维工程师的主要职责概述

★ 系统运维工程师的具体内容

★ 大数据运维工程师的具体职责描述

var _hmt = _hmt || [](function() { var hm = document.createElement("script") hm.src = "https://hm.baidu.com/hm.js?f3deb3e38843798ce8b6783fc0959c85" var s = document.getElementsByTagName("script")[0] s.parentNode.insertBefore(hm, s)})()

一、机房日常运维管理

1、运维人员每天在8：30到达机房进行设备巡检，每天17：30下班后再次进行设备巡检，并在《设备日巡检记录表》中进行记录。如发现异常情况，需立即上报机房主管人员，并联系相关产品服务商获取技术支持。

2、对任何异常情况及其处理操作应在事件单中被记录，为日后的问题管理提供依据。

3、机房运维人员每天上、下午均应合理安排时间在机房查看设备运行状态，包括内存、硬盘、CPU等系统资源状态，如出现资源运行异常，应查看相关系统设备运行进程并转入事件管理流程进行处理。

4、保持机房整洁、卫生。所有设备摆放整齐有序，不得将任何废弃物品留在机房内。不得存放与工作无关的物品，机房的物品不得私自带走。

二、机房网络安全管理

1、新购置的设备，在安装、使用前应当认真经过安检。使用之前采取防止病毒感染措施，试运行正常后，再投入正式运行。

2、机房设备严禁连接互联网。

3、对于网络设备和服务器，要制定不同的用户账号，赋予不同的用户操作权限，并予以登记、备案。禁用guest账户，删除服务器中的多余的、过期的以及共享的账户。必须定期统计相关信息和操作状况，并向上级领导。

4、设置登录服务器的操作超时锁定，超过10分钟不操作即锁定，需要重新认证后登录。

5、系统中所涉及的涉密服务器、终端、以及应用程序的本地登录和远程登录必须进行用户身份鉴别，并与安全审计相关联，保证系统内安全事件的可查性。

6、禁止任何部门和个人严禁进行渗透测试，严禁攻击其它联网主机，严禁散布病毒。

7、严格执行计算机操作规程和各项管理制度，加强对管理人员和工作人员的防病毒教育。

8、网络服务器应当安装防火墙系统，加强网络安全管理。

9、病毒检测和网络安全检测必须指定专门的技术和管理人员负责；负责人员必须定期对网络安全和病毒检测进行检查。定期采用国家相关主管部门批准使用的检测工具对系统进行安全性检测，检测工具和版本应及时更新。对于发现的系统软件和应用软件的安全隐患，必须及时从系统软件开发商和应用软件开发商获取相关的补救措施，如安装补丁软件、制定新的安全策略、升级病毒库等。

三、机房硬件设备安全管理

1、机房运维人员必须熟知机房内设备的基本安全操作和规则，特别是对服务器、交换机进行熟悉操作，做到及时维护。

2、应定期检查、整理设备连接线路，定期检查硬件运作状态（如设备指示灯、仪表），定期调阅硬件运作自检报告，从而及时了解设备运作状态。

3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更换设备连线、禁止随意进行硬件复位。

4、禁止在服务器上进行实验性质的配置操作，如需要对服务器进行配置，应在其他可进行试验的机器上调试通过并确认可行后，才能对服务器进行准确的配置。

5、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知，并且应有充分的时间、方案、人员准备，才能进行硬件设备的更改。

6、对重大设备配置的更改，必须首先形成方案文件，经过讨论确认可行后，由具备资格的技术人员进行更改和调整，并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前，应对更改、升级、配置所带来的负面后果做好充分的准备，必要时需要先准备好后备配件和应急措施。

7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经上级允许，不得对核心服务器和设备进行调整配置。

8、硬件设备出现故障时，应填写好《硬件设备维修故障登记表》，详细填写故障状况及故障原因，并报修，故障处理结束后，因填写处理情况及结果，交由上级验收、签字后，存档备查。

9、存储过涉密信息的硬件和固件应到具有涉密信息系统数据恢复资质的单位进行维修。

10、不再使用或无法使用的设备应按照国家保密工作部门的相关规定及时进行报废处理，并记录最终去向。

四、机房软件安全使用管理

1、设立计算机软件管理台帐，对每套计算机软件进行登记，并纳入资产管理。

2、妥善保存计算机软件介质、说明书、使用许可证（或合同）等资料。

3、根据操作说明，正确使用各类应用软件。

4、须安装非专用软件，须经上报并检测、办理安装使用备案手续。

5、软件必须由专人来保管，禁止任何人员将机房软件私自拷贝、随意向外传播。

6、任何在用软件的升级均需主管人员书面批准。

五、机房资料、文档和数据安全管理

1、资料、文档、数据等必须有效组织、整理和归档备案。

2、硬盘、软盘、光盘、磁带、带存储功能的设备等涉密信息存储介质应按照所存储信息的最高密级标明密级。

3、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员。

4、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关和数据的，应由机房相关负责人代为查阅，并只能向其提供与其当前工作内容相关的数据或资料。

5、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据保证其还原行，防止遗失重要和数据。

6、严禁使用计算机、终端机、因特网为无关人员查询、调阅涉密数据；存有秘密信息的磁盘、光盘，严禁外借、复制；不得向无关人员提供网络入口及口令。

7、调动工作时，必须将自己经管的涉密文件、资料和使用的保密笔记本上交，并递交在调离后一定期限内不失密泄密的保证书。

8、发现失、泄密现象，要及时上报。

9、不再使用或无法使用的涉密信息存储介质在进行报废处理时，应进行信息消除或载体销毁处理，所采用的技术、设备和措施应符合国家保密工作部门的有关规定。

六、机房保安管理

1、中心机房应采取有效的门控措施，并装备“三铁一器”。

2、出入机房应注意锁好防盗门。对于有客人进出机房，机房相关的工作人员应负责客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。

3、工作人员离开工作区域前，要保证服务器、交换机等设备控制台的密码处于锁定状态。

4、运维人员要严格执行人员出入登记制度，不得邀请无关人员到机房参观，外单位系统、线路维护人员要进入机房需提前与管理人员联系，批准后方可由管理人员陪同进入，并填写《人员出入登记表》。

5、外来人员进入必须有专门的工作人员全面负责其行为安全。

6、未经主管领导批准，禁止将机房相关的钥匙、保安密码等物品和信息外借或透漏给其他人员，同时有责任对保安信息保密。对于遗失钥匙、泄漏保安信息的情况即时上报，并积极主动采取措施保证机房安全。

7、机房人员对机房保安制度上的漏洞和不完善的地方有责任及时提出改善建议。

8、绝不允许与机房工作无关的人员直接或间接操纵机房任何设备。

9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时，机房工作人员有义务以最快的速度和最短的时间到达现场，协助处理相关的事件。

七、机房用电安全管理

1、机房人员应学习常规的用电安全操作和知识，了解机房内部的供电、用电设施的操作规程。

2、机房人员应经常学习、掌握机房用电应急处理步骤、措施和要领。机房应安排有专业资质的人员定期检查供电、用电设备、UPS设备。

3、机房人员应定好UPS放电计划，对UPS的放电时长做出准确的评估，并做出更换或修复UPS计划报告相关人事。

4、运维人员定期检查UPS各项运行参数、负载、电池容量是否正常，如有异常，应及时调整处理，并做好记录。

5、严禁随意对设备断电、更改设备供电线路，严禁随意串接、并接、搭接各种供电线路、严禁把电源排插散落在地。发现用电安全隐患，应即时采取措施解决，不能解决的必须及时向相关负责人员提出解决。机房内的电源开关、电源插座要明确标出控制的设备。

6、在使用功率超过特定瓦数的用电设备前，必须得到上级主管批准，并在保证线路的保险的基础上使用。

7、在发生市电报警要尽快赶往机房查看，并通告相关人员。事件处理完后，应及时复位市电报警设备。

8、在外部供电系统停电时，机房工作人员应全力配合完成停电应急工作。当需要发电机发电时，应计算好机房用电功率合理选择发电机型号发电，严禁发电超负载供电。

9、定期（不长于三个月）对供电设施进行检测与检修，保障供电正常。

八、机房空调管理

1、为保证设备良好的工作环境，应保持合适的机房温度和湿度，机房温度应保持在22℃--26℃，机房湿度应低于70%。

2、空调运行时，巡检人员按时检查各项运行参数、状态是否正常，如有异常，应及时调整处理，并做好记录。

3、定期进行空调机的清理，防止因散热不良造成空调的工作异常。

4、配备备用电风扇，以防止空调出现故障时机房温度的快速上升。定期进行备用电风扇可用性检查。

5、每年春秋换季期对空调系统进行全面的检查保养，确保机组的正常运行。

6、每天巡检一次，确保空调系统正常运行，如发现故障应及时上报。夏季要提高巡检频率，每天两次，上下午各一次。

7、机房维护人员应懂得进行一些必要的空调降温手段，以便在出现温度升高的状况下能通过辅助手段降低温度上升的速度。

九、机房消防安全管理

1、机房工作人员应熟悉机房内部消防安全操作和规则，了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。

2、消防设备应放在显眼易取之处，任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的，必须取得主管领导批准。工作人员更应保护消防设备不被破坏。

3、每日对火灾重大风险点如蓄电池组进行巡检，检查内容包括电池是否漏水，有无发热异常，电极触点是否连接正常。

4、插座及蓄电池附近不得摆放纸箱、说明书等易燃物品。

5、应定期消防常识培训、消防设备使用培训。如发现消防安全隐患，应即时采取措施解决，不能解决的应及时向相关负责人员提出解决。

6、严禁在机房内吸烟和使用明火，如因线路或其他原因引起明火，应及时拨打119和通知相应负责人迅速解决问题。

7、定期检查消防设备状态，保证消防设备可用性。

十、机房应急响应

1、机房停电时，UPS设备将为机房设备提供电力支持，但UPS能够提供的电力有限，因此需要根据实际情况进行处理，具体如下：

在停电时，有短信报警机制通知到机房维护人员，维护人员应马上通知机房主管人员，并在一小时内赶回机房。

机房维护人员积极配合主管人员协调各供电电路运维方及时检查处理市电回路故障。

按照《基本业务服务设备列表》，只保留基本业务服务设备运行，对其余设备进行关闭。

当UPS电力不足时，应及时关闭所有设备，避免突然断电造成的系统设备故障。

2、当机房温度升高时，为保护各设备，需要采取相应的应急处理措施，具体如下：

达到温度阈值时，应有短信通知机制通知机房维护人员，维护人员一小时内到场，马上启用备用电风扇。

当机房温度超过28℃时，维护人员应立即通知主管人员并积极协调空调维护商尽快处理。

在温度超过35℃时，可以根据《基本业务服务设备列表》关闭非基本设备，只提供基本业务服务设备运行；

当机房温度超过40℃时，应当关闭所有系统设备运行。

3、火灾不像供电及空调故障那样存在一段缓冲期去处理或减少影响，对无人值守机房来说一旦发生火灾，势必导致重大财产损失。对于机房火灾应当是预防为主，因此必须重视每日的蓄电池组巡检。当机房发生火灾时，本着先救人，后救物的思想原则采取相应的应急处理措施，具体如下：

有报警机制通知到所属地区消防部门，并通知到机房维护人员及主管人员。并根据预先制定的火灾发生时联系人目录通知到位。

到场后立即断开电源，防止由于电源引起的火情进一步扩大。

寻找安全的地点监控火情，并积极配合消防人员应对火灾。

4、设备发生故障时，使用备用设备替换现有设备，并保证新设备配置和用户密钥与旧设备一致、保证新设备配置和数据与旧设备一致。

5、传输线路干路发生故障时，请及时联系网络供应商，对线路进行检测维修。

6、发生不可预见的紧急请况时，及时向主管人员汇报，并与相关技术人员联系，采取妥当的应急办法进行应急处理。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/132565.html

AIX小型机服务器巡检操作

发表评论

评论列表（0条）