SLA的定义来源百度,这到底是什么意思呢?
我们平常经常看到互联网公司喊口号,我们今年一定要做到3个9、4个9,即99.9%、99.99%,甚至还有5个9,即99.999%。
这么多9代表什么意思呢?
首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
这么多9是怎么计算的呢?
全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!
1年 = 365天 = 8760小时
99.5% = 8760 * 0.5% =43.8小时
99.7% = 8760 * 0.3% = 26.28小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了吧。
怎么做到更多的9
每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。
如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。
要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。
主要在两个方面处理,预防,快速发现解决。
1.监控
2.降级策略(断路器等)
1.提升开发认知(包含代码设计能力,责任心,团队文化)
2.运营值班流程
SLA:Service-Level Agreement的缩写,意思是服务等级协议。是关于网络服务供应商和客户间的一份合同,其中定义了服务类型、服务质量和客户付款等术语。
项目
典型的SLA 包括以下项目:
分配给客户的最小带宽;
客户带宽极限;
能同时服务的客户数目;
在可能影响用户行为的网络变化之前的通知安排;
拨入访问可用性;
运用统计学;
服务供应商支持的最小网络利用性能,如99.9%有效工作时间或每天最多为1分钟的停机时间;
各类客户的流量优先权;
客户技术支持和服务;
惩罚规定,为服务供应商不能满足 SLA 需求所指定。
要求
按照 SLA 要求,服务供应商采用多种技术和解决方案去监控和管理网络性能及流量,以满足 SLP 中的相关需求,并产生对应的客户结果报告。
另一方面,客户本身也提出了自己的技术及解决方案去监控邻居的流量和服务,以确保提供他们答应的传送服务项目。
SLA概念已被大量企业所采纳,作为公司 IT 部门的内部服务。大型企业的 IT 部门都规范了一套服务等级协议,以衡量、确认他们的客户(企业其他部门的用户)服务,有时也与外部网络供应商提供的服务进行比较。
1)IP SLA
Service Level Agrement(服务等级协议)在ISP领域指的是用户和服务提供商签订的服务等级合同。用户可以享受什么样的等级什么样的带宽服务等等。当然此处我们探讨的和这个无关,我们主要对企业网络环境中应用SLA的作用做探讨。[1]
2) 静态浮动路由
浮动静态路由是一种静态路由,在主路由失效时,提供备份路由。但在主路由存在的情况下它不会出现在路由表中。浮动静态路由主要用于拔号备份.
3) IP SLA功能
-检测路由器之间的网络性能。
-量化当前网络的性能,健康状况。
-评估现有网络的服务质量。
-帮助用户分析,排除网络故障。
-和浮动静态路由,HSRP等技术结合做track功能(工程中应用较多的实例)
4) IP SLA原理
通过发送测试报文,对网络性能,服务质量进行分析,并为用户提供网络服务质量的各种参数,例如:
抖动延迟,文件传输速率,TCP时延等。
测试
测试SLA以确保提供商承诺的服务水平有如下方式:
第一种方法是向提供商提出一个实际问题,这能使您对支持过程和工作人员熟练度有一定的掌握。也有助于验证非工作时间内“7x24”或“8x5”服务的真正意义。
第二种方法是谈论提供商所接触的其他客户。某些时候在一些事情上会出现错误,但外包服务提供商会做出如何反应。他们是否会提供实时性更新通知吗?问题如果已解决,供应商将告诉你一个真实的情况。一般情况下,您将听到好的消息和问题如何得到解决的例子。
第三种方法是检查提供商的现行做法。例如:签署一份包含数据中心空间、运行时间、温度和湿度的SLA。需查看项目设备维护记录。通过看报告,可以确定,其发电机的“定期测试”每年只有两次。此外,也能够验证HVAC和UPS系统已经处于延迟维护状态。以此确定选择这个提供商是不明智的,尽管提供的设施表现足够好,但是没有文件备份。
外包SLA是服务提供商和客户之间关系的基石。但至关重要的是,企业要了解SLA中的各项条款,还要知道如何在SLA谈判中从提供商那里获得有利的条款。同样重要的是,提供商要尽职尽责的确保客户在正常运行时间的临界条件。[2]
服务协议编辑
定义
SLA服务水平协议(简称:SLA,全称:service level agreement)是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。
内容
一个完整的SLA同时也是一个合法的文档,包括所涉及的当事人、协定条款(包含应用程序和支持的服务)、违约的处罚、费用和仲裁机构、政策、修改条款、报告形式和双方的义务等。同样服务提供商可以对用户在工作负荷和资源使用方面进行规定。
保障
传统上,SLA包含了对服务有效性的保障,譬如对故障解决时间、服务超时等的保证。但是随着更多的商业应用在Internet的广泛开展,越来越需要SLA对性能(如响应时间)作出保障。这种需要将会随着越来越多的商业在Internet 的开展而重要起来。实际上,SLA的保障是以一系列的服务水平目标(SLO)的形式定义的。服务水平目标是一个或多个有限定的服务组件的测量的组合。一个SLO被实现是指那些有限定的组件的测量值在限定范围里。SLO有所谓的操作时段,在这个时间范围内,SLO必须被实现。但是由于Internet的统计特性,不可能任何时候都能实现这些保障。因此SLA一般都有实现时间段和实现比例。实现比例被定义为SLA必须实现的时间与实现时段的比值。例如:在工作负荷<100 transaction/s前提下,早上8点到下午5点服务响应时间<85ms,服务有效率>95%,在一个月内的总体实现比例 >97%。
监测
[3] 1、轻松监控SLA的先决条件
签署SLA,会有一下形式:IaaS、PaaS和SaaS,分别是基础设施即服务、平台即服务和软件即服务。企业应该确保它们能对所有签署的SLA的进行监控。
比如说,IT托管服务商景安网络使用多种工具来监控SLA和基础设施的可用性。这些工具能够监控性能和基础设施、容量的健康状况趋势,并作出报告。
2、第三方监控
审计是很重要的一步,能够确保安全,保证SLA的承诺和责任归属,保持需求合规。企业可以用第三方监控。如果企业在云中运行业务关键的应用,这项服务应该保持定期审查,确保合规,敦促厂商与SLA步调一致。
对于不合规的处罚和SLA违反,我们只能基于服务信用。未来可以通过绑定业务级别SLA来作为弥补。
3、转换SLA,帮助整个业务成果
尽管云计算市场正在迅猛增长,中小企业的IT大多数都不够成熟,不足以支撑基于基础设施的SLA来帮助义务发展。企业应该选择最适合业务需求的SLA,而不是急急忙忙签署协议。
如果企业操之过急,直接选择基础设施级别的SLA,可能会由公司内部产生很多话费。比如说,某企业想要99.999%的高可用性,服务商就会提供更多冗余和灾难恢复,结果花费大幅提高。
当聚焦于节俭型业务级别SLA时,云计算SLA监控应该具有逻辑性和可行性,而不仅仅是基础设施级别的SLA。
4、确保告警装置
为了让SLA监控更高效,你得确保可用性和责任时间通过Web portal定期报告。企业应该保证及时的e-mail告警。
5、确保厂商有高效的后备设施
不同的厂商对于数据保护的系统也不同。但是有的厂商会把该职责推给客户,这样的话客户只好自己保护数据。因此企业应该确定服务商在签署SLA时,是否对此负有责任。
你可以问这些问题:厂商用什么装置保护数据?厂商是否在后端复制镜像?有快照吗?灾难恢复计划是否有效?未授权的人能否访问数据?
6、确保服务商的生态系统
选择厂商时,要看看它的生态系统是否整合了SI、ISP、IaaS/PaaS供应商。如果一个云供应商只关注单一的基础设施级别或者PaaS,不会关注别的,那就可能不适合长远发展。
对于云管理即服务,第三方解决方案可以考虑用来进行云SLA监控,它能以每秒为单位检查问题,毕竟灾难常常源于细节问题。
服务标准
一、紧急情况
当网站发生服务器宕机,数据库无法读写等一级紧急事件时,网站维护方应当在1小时内响应,2小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解决的时间。成熟的网站建设公司对于紧急情况通常都会有一套完善的应急解决方案,帮助客户及时解决突发事件,最大程度的挽救因网站无法访问导致的损失。
二、重要情况
网站正式上线过程后,有时会出现在验收过程中没有察觉的bug,这个时候,建站企业应当积极协助客户解决该bug,具体的响应时间根据bug造成的影响程度而定。根据SLA服务标准,bug的等级亦可进行进一步的划分并制定相应的解决方案。这里不予以赘述。
三、标准情况
在网站设计和网站编码阶段,因设计师和程序员协作环节的不一致性,有可能出现网页的样式问题和兼容性问题。以及由于客户临时需求的变更和新增,都会对正式运行的网站产生新的维护需求。按照需求的难易性和工作量制定相应的响应标准,是保证客户满意度的关键所在,也是SLA服务标准体系当中的重要环节。
四、次要情况
包括页面上一些细节的小调整,如个别文字、样式上的调整,图片的更替等等,通常在24小时内响应,双方商议的时间内进行解决即可。当然,SLA服务体系的出发点是为IT服务提供完善、标准、科学的解决方案,任何忽略细节的处理方式都有可能影响客户满意度。[4]
SLA的可量化
SLA的协定有一个很重要的关注点,即SLA的“可测量性”与“测量方法”,有一些运维服务商与客户协商一些复杂的指标,但这些指标在合同周期内是根本无法进行测量的,这种SLA的协定就丧失了意义,无法测量就意味着根本无法知道执行情况、无法计算执行结果,也无从改善与控制,这是一方面,另一方面,当我们确定了一些指标后,这些指标的计算方法与测量方法也是需要注意的,这些要与客户商定清楚,避免了有指标,但最后的测量方法双方不一致,导致最终的达成结果出现偏差而发生纠纷。
云计算SLA
SLA概念已被大量企业所采纳,作为公司IT部门的内部服务。
云计算SLA现状
许多IT经理正在考虑把许多应用及服务迁移进云端。一部分人因为经济原因被迫考虑云计算,而另外一部分人考虑提供一些新的IT服务。不管怎样,IT经理不久的将来不得不面对服务等级协议(SLA)[5] 。
对于许多IT经理来说,评估SLA是不容易的。毕竟大多数的SLA都是一些条款形式的内容,人们很难确定某个运营商实际能够提供哪些服务。而且SLA的提出主要是为了 保护运营商的利益,而不是针对客户,这样使整个事情变得更为复杂。许多运营商提供SLA主要是为了避免一些不必要的纠纷和诉讼,同时提供给客户最小限度的保证。也就是说,当其企业选择了一个云运营商并且对那些服务进行有效的安排之后,SLA同样能够成为IT经理一种有效的工具。
IT经理需要关注SLA的三个方面:数据保护,连续性和费用开销。毋庸置疑,数据保护是最需要关注的一个要素。IT经理想要确认谁有权使用这些数据。刚开始确定数据保护的级别似乎很容易,但是还是有很多隐藏的问题。IT经理必须查出这些问题并且解决他们。
这些问题进一步的升级就涉及到了知识产权保护问题。所有的问题最后都归结为谁最终能够控制客户的这些私有数据。
一个IT经理需要明白如何利用运营商的基础构架和服务来为那些必须的应用和数据提供连续不断的保护。业务不间断性非常重要。最理想的情形是运营商保证提供100%的不间断服务,但实际上这样的保证是不可能实现的。
所有的服务提供商都将会经历在某一时刻宕机的情况,因为有很多超出他们控制范围的情况发生,包括自然灾害以及社会生活中发生的一些不确定因素。大部分的服务提供商最多能够给予99.5%正常运行时间的保证。但是这些保证通常还附带另外一些限制条件。即便如此,运营商可以尽力保证这些服务在一个可接受的层次范围之内。
一些运营商都将价格要素包含在他们的SLA中,其余的则将这些费用放置在一些独立的合同条款中。不管怎样,IT经理必须明白这些费用包含在基于云的服务中。这些费用不仅仅和预算有关,而且通常被用来确定投资收益率。价格分析通常都是财务部门的任务,但是IT经理能够帮助加速这个过程,或许还能够为那些花费在云服务上的费用提供一些简单合理的解释。
找到这些问题的的答案并牢记以上要点能够帮助IT经理作出一些有理有据的决定。当他们选择一个服务提供商并且打算和提供商建立长期合作的时候,这些决定能够同时保证服务的有效以及可靠。所有这些归结起来都是为了简化关于服务等级协议(SLA)的描述,并且给大家提供SLA的一个通俗概念。
评估云计算SLA的另一个问题是无法让所有相关参与者都确保SLA。云计算工作流程通常涉及三方——企业本地自有网络的员工、让员工访问云计算的网络供应商以及云计算供应商。具体可能还涉及企业的数据中心(网络与托管)和提供“云计算至数据中心”连接的另一家网络供应商。供应商通常不会撰写或接受用于处理他们所不涉及工作流程环节的SLA。你需要让他们同意成为他们为此收取一定费用的“主要承包商”或者为所涉及的每一方得到或编写一份SLA。
通常SLA中的最大问题是网络连接问题,因为在大多数情况下,除了在云计算本身内部的情况外,云计算供应商是不会提供网络服务。如果你希望严格的SLA,那么你将需要为网络服务编制一份SLA。所以,你应当首先确认你的云计算供应商是否会提供一个VPN或者他们是否能够与你所使用VPN服务的供应商进行协作。在很多情况下,你仍然需要使用互联网来实现用户的连接性,但是VPN将为你提供一个你希望获得保证的坚实网络边界。[6]
签署云计算SLA当注意事项
没有人能够确定所有与企业防火墙外机密或私有信息存储(云计算)相关的法律风险。但是,越来越多的舆论认为,企业用户应当要求云计算供应商来维护一个安全的IT环境,以规避与云计算相关的潜在法律风险。一般来说,与云计算相关的关注领域类似于传统IT的关注领域:
· 传输与存储期间的数据安全;
· 数据的私密性和保密;
· 一般访问、地方政府访问以及电子查询的权利;
· 数据所有权;
· 服务的暂停与终止;
· 与云计算供应商共同协商和制定服务等级协议(SLA)。
因为许多领先的云计算供应商是拥有更为庞大客户群的实体,SLA的处罚细节并不总是可以通过谈判解决的。通常情况下,SLA只是在“要就拿走,不要拉倒”基础上提出的简单形式。因此,你应当考虑的第一个问题是你是否愿意把贵公司的数据放到一个你无法掌控的环境中。如果你对此感到无所适从,我建议你找一个供应商一起来讨论服务条款细节。
云计算存储的新手,可以考虑优先级的数据存储。通过首先迁移非核心数据,许多公司开始了云计算化的实施。这个策略可使他们试用这一服务,并确定该服务是否具有成本效益而不会担心影响核心业务功能。例如,一个刚刚接触云计算技术的律师事务所可能会决定,在把特殊机密的客户信息迁往标准网络防火墙外之前,可以尝试先把后台管理系统信息(如薪金、雇员福利)放置在云中。
云计算SLA和点菜选项
要求敏感数据驻留在私有云中既然云计算的目的在于通过设施共享实现规模经济效益,那么这可能并不是一个合适的定义;但是,有可能出现这样的场景,即使用专用云计算基础设施才是有意义的。寻找特殊的数据加密技术。如果信息特别的敏感,那么你可能需要云计算供应商来提供额外的保护。
数据存储所在地的地域限制。出于法律或与客户相关的目的,你可能不希望数据存储在执法不严格或法律不确定的海外。
独特的服务等级。如果你的企业有特殊的数据访问和使用的需求,不要犹豫,请向你的云计算供应商请求特殊服务。对违反协议条款的特殊处罚。如果对于你或你的客户来说,违犯数据私密性处以特殊处罚是非常重要的,请直接向他们提出。
处理云计算供应商所有权变更的规定。云计算市场总是出于快速的变化中。你可能需要在你的SLA中增加所有权变更或不可转让的条款。在这样的规定中,你可能需要澄清云计算供应商永远不得拥有你委托他们管理的数据,即便在你决定更换供应商时。
关于发生灾难事件时业务连续性的规定。你需要知道在发生地震、海啸或其它自然灾害事件时对你的数据的影响。 除了这些条款之外,你可能还需要增加传统的IT外包合同条款,其中你已逐渐习惯的电子查询和违犯处罚,诸如:
· 基于预定义标准——内容、发件人和/或收件人、日期范围和元数据的搜索;
· 与任意元数据相关的存储搜索;
· 从搜索结果中新增和删除,以创建一个电子查询集。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)