SLA的定义来源百度,这到底是什么意思呢?
我们平常经常看到互联网公司喊口号,我们今年一定要做到3个9、4个9,即99.9%、99.99%,甚至还有5个9,即99.999%。
这么多9代表什么意思呢?
首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
这么多9是怎么计算的呢?
全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!
1年 = 365天 = 8760小时
99.5% = 8760 * 0.5% =43.8小时
99.7% = 8760 * 0.3% = 26.28小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了吧。
怎么做到更多的9
每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。
如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。
要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。
主要在两个方面处理,预防,快速发现解决。
1.监控
2.降级策略(断路器等)
1.提升开发认知(包含代码设计能力,责任心,团队文化)
2.运营值班流程
1、SLA
在日常生活中,一般 存在交易就会有协议或者合同,规定交易双方的权利和责任,特别是违约惩罚方式。在IT行业对应的就是SLA(service level agreement服务等级协议),它规定提供服务的具体细节,用户根据SLA规定结合自身的要求选择服务,如果服务方不能达成,被服务方可以根据约定要求赔偿。
其实制定一个好的SLA对于提供服务方和享受服务方都是有利的,服务提供者有了SLA能够明确知道自己需要提供哪些服务、服务质量如何,有努力的方向,对于享受服务方能够提前评估该服务能否满足自己需要,是否要购买对方服务,最重要的是出现纠纷时双方有据可查。简单一点说,就是双方合作前把好话丑话都说在前面,避免后续扯皮。
2、好的SLA标准是什么
合 法: 一个好的SLA首先是一个合法的文档,本身不能违反相关法律,内容包括所涉及的双方当事人、协定服务条款(包括服务类别和具体指标)、违约的处罚、费用和出现问题参与仲裁的机构、政策、修改条款、报告形式和双方的义务等。
简 洁 : 一般的SLA要简单易懂,不要写成拗口的法律文书。
可操作 : SLA约定服务的内容、质量指标以及违约责任,这些都要能够量化、好操作。笼统的说健壮性好、成功率高都是不可行的,要有对应的量化指标,计算方法。在IT行业一般都会用几个9来量化,如成功率是99.99%,表示10000笔交易最多有一笔交易可以失败。可用性99.95%(3个半9),表示在规定时间内不可用时间占比不超过0.05%,一个月总的不可用时间大概是21分钟。对于违约责任通常是赔偿用户费用或者补偿用户使用服务的时间。
目前大部分IT应用会选择部署在云环境上,对于公有云是否有SLA,SLA的具体指标如何是选择公有云的重要参考,如果一个公有云没有SLA可以直接PASS,拿阿里云和腾讯云云主机的SLA看,这两家是比较正规的,都明确的在数据完整性、私密性、可迁移等方面做了承诺,并且对服务可用性都做了明确的规定,另外还有服务的赔偿条款。整个SLA看起来简洁、可操作。
3、如何制定SLA
内外结合: 只要提供对外服务的组织和个体都可以提供SLA,也很有必要提供SLA。组织整体对外提供SLA,这个SLA如何保证达成?关键的一点是能够将这个SLA指标细化到组织内部,各个内部单元分解这个SLA指标,只有内部各个单元都满足这个SLA,组织才能保证对外提供整个SLA。对于云计算环境提到的可用性SLA指标,只有细化到内部的云计算环境的基础架构、硬件、网络、安全、应用等各个环节都能达成这个指标,对外的整个指标才能达成。
刚好就好: 制定SLA一方面要分析市场上同类服务的指标,制定的指标要有竞争性,另外这个SLA指标也要充分审视内部的能力,内部能力要能和这个SLA指标匹配,另外SLA指标也不是越高越好,每多一个9付出的成本往往不是线性增加的,对于很多IT服务可用性等指标也受限于外部系统(骨干网络的可靠性、网络硬件设备的可靠性、客户端的可靠性),内部再提高也不能超越整个端到端的可靠性,存在一个木桶效应。
对于IT服务,大家把话说在前面、制定好规则、做出承诺,努力的去实现自己的承诺,如果实现不了勇于承担责任也是文明法制社会的基础。SLA又是KPI考核的一个基础,好的SLA可以是一个指挥棒,通过考核方式合理分配各方面资源,最终为达成SLA,实现商业价值服务。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)