下文逐步分解:
一、基础设施运维:
1.1机房管理方面:
1.1.1机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)
1.1.2机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)
1.1.3机房承重(通过控制入室设备重量可以降低承重风险)
1.1.4机房环境温、湿管理(通过巡检记录加以管理)
1.1.5机房电力管理(通过巡检记录加以管理)
1.1.6机房的监控管理(通过进出机房人员的数量与1.1.1章节内的人员出入做比对)
1.1.7机房线缆管理即网线(含存储线等)、光纤和电源线管理(其内容主要围绕着横平竖直,捆扎带松紧,电源线长度预留等)
执行以上内容的人员素质不需要很高,但是,注意,管理以上执行者的领导(领队、带头人)在选择时至关重要。
在工作执行中,本着不需要执行者“动脑”作为工作原则,即,制作完美的SOP,完整的交接班制度和可落地的工作流程及问题处理流程即可驱动
PS:特别注意夏天,空调工作效率会降低,注意,撰写应急预案
1.2机房容灾方面
制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案,环境温湿度高时应急预案等
二、基础环境运维:
基础环境运维实际可以分为周期性工作和非周期性工作,指导思想来自ITSM(itil)
名词解释:
周期性工作
服务请求
事件处理
变更管理
问题-风险跟踪记录
2.1 周期性工作
所谓的周期性工作,指的是周期的、重复的工作,比如:配置备份、账户回顾、配置回顾、更新各类系统的操作手册等等。别小看周期性的工作,其实它是运维工作权值较高的工作内容,怎么将周期性的工作合理而有效的运转起来呢?我们工作中将周期性工作纳入运维日历,将重复性的工作条带化规范化,通过制作SOP,检查SOP执行情况,执行团队反馈SOP使用情况,跟进SOP优化情况,进行周期性的、重复性工作的执行指导。 ----以上内容不知道有没有说透,要是没有请留言。
2.2非周期性工作(主要含服务请求、事件处理、变更管理、问题-风险跟踪记录)
本章节内容,主要围绕着流程、SOP、PDCA进行展开,那么咱们现在需要名词定义
定义,服务请求、事件处理、变更管理,问题-风险跟踪记录,如果学习或了解过ITSM的工程师对以上的名字并不陌生,我也是,我认真的学习过上面的内容,我的同事、朋友也学习过,但是我们在在针对以上名词进行探讨的时候却发生了很大的奇异,所谓的奇异就是我们各自理解的不一致,而且这个现象困扰了我们很久,举个例子,领导让我在AD上创建一个账号,让我来做时,这个操作其实是很简单的,但是我应该走什么流程呢?
“执行者不需要动脑子”,通过这句话我恍然顿悟了,边界不清那么咱们就定义边界,怎么定义呢,这时候就引入了工作分类表,就是说,将运维工作量化,制作服务请求分类表,事件分类表,变更分类表,然后按照机房管理的内容照章工作即可----以上内容不知道有没有说透,要是没有请留言。
以上内容由 付林 提供
代维就是代理维护的意思,是服务器运维的一种方式。
代维通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。
运维技术方向:
产品的整个生命周期里运维的职责重要而广泛,但运维工程师们的职责不仅限于这部分工作,还需要总结工作中遇到的问题,抽取出相关的技术方向、研发相关的工具和平台以支持/优化业务的发展并提高运维的效率,相关技术工作主要包括:
1、服务监控技术:包括监控平台的研发、应用,服务监控准确性、实时性、全面性的保障;
2、服务故障管理:包括服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品/系统的设计层面进行优化以提高产品的稳定性;
3、服务容量管理:测量服务的容量,规划服务的机房建设,扩容、迁移等工作;
4、服务性能优化:从各个方向,包括网络优化、操作系统优化、应用优化、客户端优化等,提高服务的性能和响应速度,改善用户体验;
5、服务全局流量调度:接入服务的流量,根据容量和服务状态在各个机房间分配流量;
6、服务任务调度:服务的各种定时/非定时任务的调度触发及状态监控;
7、服务安全保障:包括服务的访问安全、防攻击、权限控制等;
8、数据传输技术:包括p2p等各类传输技术的研发应用,也远距离大数据传输等问题的解决;
9、服务自动发布部署:部署平台/工具的研发,及平台/工具的使用,做到安全、高效的发布服务;
10、服务集群管理:包括服务的服务器管理、大规模集群管理等;
11、服务成本优化:尽可能降低服务运行使用的资源,降低服务运行成本;
12、数据库管理(DBA):通过设计、开发和管理高性能数据库集群,使数据库服务更稳定、更高效、更易于管理;
13、平台化的开发:类docker和google borg平台的开发管理,及服务接入技术;
14、分布式存储平台的开发优化:类google gfs等分布式存储平台的研发及服务接入。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)