SLA服务等级

SLA服务等级,第1张

SLA:服务等级协议(简称:SLA,全称:service level agreement)。是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。

SLA的定义来源百度,这到底是什么意思呢?

我们平常经常看到互联网公司喊口号,我们今年一定要做到3个9、4个9,即99.9%、99.99%,甚至还有5个9,即99.999%。

这么多9代表什么意思呢?

首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。

这么多9是怎么计算的呢?

全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!

1年 = 365天 = 8760小时

99.5% = 8760 * 0.5% =43.8小时

99.7% = 8760 * 0.3% = 26.28小时

99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时

99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟

99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了吧。

怎么做到更多的9

每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。

如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。

要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。

主要在两个方面处理,预防,快速发现解决。

1.监控

2.降级策略(断路器等)

1.提升开发认知(包含代码设计能力,责任心,团队文化)

2.运营值班流程

1、SLA

在日常生活中,一般 存在交易就会有协议或者合同,规定交易双方的权利和责任,特别是违约惩罚方式。在IT行业对应的就是SLA(service level agreement服务等级协议),它规定提供服务的具体细节,用户根据SLA规定结合自身的要求选择服务,如果服务方不能达成,被服务方可以根据约定要求赔偿。

其实制定一个好的SLA对于提供服务方和享受服务方都是有利的,服务提供者有了SLA能够明确知道自己需要提供哪些服务、服务质量如何,有努力的方向,对于享受服务方能够提前评估该服务能否满足自己需要,是否要购买对方服务,最重要的是出现纠纷时双方有据可查。简单一点说,就是双方合作前把好话丑话都说在前面,避免后续扯皮。

2、好的SLA标准是什么

合 法: 一个好的SLA首先是一个合法的文档,本身不能违反相关法律,内容包括所涉及的双方当事人、协定服务条款(包括服务类别和具体指标)、违约的处罚、费用和出现问题参与仲裁的机构、政策、修改条款、报告形式和双方的义务等。

简 洁 : 一般的SLA要简单易懂,不要写成拗口的法律文书。

可操作 : SLA约定服务的内容、质量指标以及违约责任,这些都要能够量化、好操作。笼统的说健壮性好、成功率高都是不可行的,要有对应的量化指标,计算方法。在IT行业一般都会用几个9来量化,如成功率是99.99%,表示10000笔交易最多有一笔交易可以失败。可用性99.95%(3个半9),表示在规定时间内不可用时间占比不超过0.05%,一个月总的不可用时间大概是21分钟。对于违约责任通常是赔偿用户费用或者补偿用户使用服务的时间。

目前大部分IT应用会选择部署在云环境上,对于公有云是否有SLA,SLA的具体指标如何是选择公有云的重要参考,如果一个公有云没有SLA可以直接PASS,拿阿里云和腾讯云云主机的SLA看,这两家是比较正规的,都明确的在数据完整性、私密性、可迁移等方面做了承诺,并且对服务可用性都做了明确的规定,另外还有服务的赔偿条款。整个SLA看起来简洁、可操作。

3、如何制定SLA

内外结合: 只要提供对外服务的组织和个体都可以提供SLA,也很有必要提供SLA。组织整体对外提供SLA,这个SLA如何保证达成?关键的一点是能够将这个SLA指标细化到组织内部,各个内部单元分解这个SLA指标,只有内部各个单元都满足这个SLA,组织才能保证对外提供整个SLA。对于云计算环境提到的可用性SLA指标,只有细化到内部的云计算环境的基础架构、硬件、网络、安全、应用等各个环节都能达成这个指标,对外的整个指标才能达成。

刚好就好: 制定SLA一方面要分析市场上同类服务的指标,制定的指标要有竞争性,另外这个SLA指标也要充分审视内部的能力,内部能力要能和这个SLA指标匹配,另外SLA指标也不是越高越好,每多一个9付出的成本往往不是线性增加的,对于很多IT服务可用性等指标也受限于外部系统(骨干网络的可靠性、网络硬件设备的可靠性、客户端的可靠性),内部再提高也不能超越整个端到端的可靠性,存在一个木桶效应。

对于IT服务,大家把话说在前面、制定好规则、做出承诺,努力的去实现自己的承诺,如果实现不了勇于承担责任也是文明法制社会的基础。SLA又是KPI考核的一个基础,好的SLA可以是一个指挥棒,通过考核方式合理分配各方面资源,最终为达成SLA,实现商业价值服务。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/162877.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-24
下一篇2023-03-24

发表评论

登录后才能评论

评论列表(0条)

    保存