华为云服务器宕机,你怎么看?

华为云服务器宕机,你怎么看?,第1张

4月10日,华为云出现故障,用公关的术语来说,是遇到了危机。

一个云厂商,无论技术有多强,都不可能保证100%不出问题,关键是出了问题之后怎么办?如何进行危机公关?

华为成立三十多年来,遇到过太多的危机,最大的危机当属去年的美国禁令,堪称是“灭顶之灾”。在应对危机上,华为和其创始人任正非展示了非常独特的危机公关之道,非常值得行业思考和借鉴。

其一,危机公关的核心不是公关,而是以客户为中心,去解决问题。

大多数企业在危机公关时,最大的误区是掉入公关之中,纠结于什么时候应该回应,声明如何写。殊不知,公关声明发布得再快、内容写得再好,都不是重点。重点是什么?是解决客户的问题,将客户的损失降到最低。

美国事件中,任正非做的最核心工作,是补漏洞。大家一定对任正非展示的那个千疮百孔的飞机图片印象深刻,“我们现在的目的就是要补全飞机上的洞,承受美国的打击”,任正非的补漏洞就是以客户为中心、去解决问题,保证客户的业务连续性。比如面对谷歌系统禁用,任正非调集了几千人的科学家补漏洞,从而可以让华为手机的用户能够继续体验不中断。

华为云的这次故障也是如此,其第一时间做的事情,是抢修故障,恢复客户业务。据了解,4月10日中午,DCS、RDS所有资源状态已经恢复,已经报障的大部分客户业务已经恢复正常。

如果说面对危机时,公关如何做是“术”,那么以客户为中心,尽快解决问题,而且举一反三、杜绝问题再发生则是“道”。

术容易,但是道却难得多,因为道来自于企业的价值观、初心。任正非和华为之所以这样做,就在于客户为中心的价值观已经深入到骨髓中。曾经有人问任正非,华为的管理模式是什么?任正非回答:没有模式。有人问我们,华为的商道是什么?我们就没有商道,我们就是以客户为中心,就要让客户高兴。

其二,避开危机的办法,是不避开危机,公开、透明是解决危机的最好办法。

很多公司遇到负面新闻或者质疑,下意识的选择都是躲避或者沉默,他们往往存有侥幸心理,觉得这样做就能蒙混过关。但是,殊不知这种举动无异于掩耳盗铃,你越想躲避,往往越会激起公众的关注,进而让事态恶化、无法收场。

美国事件中,华为面临的最大质疑是技术后门、数据情报收集等。任正非是如何做的呢?他没有任何回避,而是做到完全的公开、透明。华为主动给美国媒体发出了公开信,邀请他们到华为来看一看,华为所有高管都可以回答问题,华为的研发实验室、技术发布会也对他们开放。一贯低调的任正非,更是站了出来,频繁、持续地接受各国媒体的采访,而且对于任何敏感问题都不回避,诚恳、理性、坦诚,全世界的客户和公众由此重新认识了华为。

甚至,任正非还有一个更加出乎意料的举动:把5G专利以公平、无歧视的方式许可给美国公司。“我们是真心诚意的想做这个技术许可,我们不会留后手和秘密。我们对被许可方开放透明,不是我们傻,而是以此让华为公司19万员工面对一个强大的竞争对手,谁也不敢睡懒觉。” 这样的公开和透明,真的是绝无仅有了。

在这次华为云的故障事件中,华为也是第一时间就在官方微博发布公告,通报故障以及修复进展,没有隐瞒、没有迟疑。

俗话说,同甘苦易、共患难难,做业务更是如此,正常时候各个厂商可能看起来差不多,但是遇到问题或者挑战时,往往才能知道谁才真的值得信任。

所以,总结起来,任正非和华为的危机公关之道,其实很简单,那就是不用公关的办法做危机公关,一切回归商业本质。始终以客户为中心,所以遇到问题时,自然第一要做的是解决问题,将客户损失降到最低;始终保持透明,所以遇到问题时,才不会推诿隐瞒,而是直面问题、公开透明。

如此而已。

小心翼翼的“手术”过后,更大的挑战在于如何将数据完整地提取出来。

2月26日,数据恢复工作已经开展了三天三夜。当天中午,第一批次的数据拿到,导入数据验证正常。但他们很快发现,他们扫描出来的最新一份数据是截止到2月17日的数据拷贝,完整性尚不确定。

“也就是说,即便这份数据完整,那17号到23号当天的数据也是缺失的。”徐勇州解释,“这个事情,好的一面是明确地告诉我们数据还在,恢复有希望。但是只找回一部分数据意义不大,我们需要完整的数据。”

扫描仍在继续尝试,工程师们逐步发现了更多数据的踪迹。到了周三深夜,新的问题再次出现:工程师们发现,现有的数据备份中,缺少大文件数据,而这些大文件极有可能是微盟最核心的业务数据。它们没有被扫描出来。

“用绝望来形容当时的心情都不夸张,核心数据如果没有,等于前期的工作都白做了,其他数据恢复了都没意义。”徐勇州说。

事实上,此时扫描出的数据大约是微盟数据整体的30%左右,已经符合甚至超过了此前行业对此类事故恢复程度的预期。“这难道真的是一个完不成的任务?”

徐勇州和技术团队不想放弃:核心数据找不回,影响的不止是微盟,还有那些商家的利益。“有一点希望都得试试看。”

徐勇州彻夜未眠。思量再三,决定两条腿走路:一是尝试对磁盘的每一块(block)进行二次扫描;二是让腾讯云的操作系统团队从OS底层入手,制定数据恢复方案PlanB,这需要极其庞大数量的尝试和数据验证,“方案一能成功是最理想的,方案二就意味着数据恢复的时间不确定,业务停摆,继续失血。”

周四上午,第一台服务器的第一块扫描成功,导回数据库查看是完整的。“方案一可行!大家信心一下子又起来了。”

从可行到成功,中间仍有艰难险阻。数据公司提取出来的单一的块,从体积来看还是达不到微盟核心文件的大小。这意味着,要获得完整数据,需要进行数据“拼接”。

就好像整块拼图被打散扔进了大海里,一块一块打捞上来是第一步,拼接是第二步。不同的是,拼图时还能够根据形状来判断哪些可以放在下一块,而拼接数据块,根本无法通过肉眼识别,只能靠一块块去扫描,寻找相似度高的拼接到一起,再重新扫描看断点是否能重合。

庆幸的是微盟的备份机制较为完备,数据的覆盖度和完整性检查等工作非常细致。徐勇州发现,文件类型只有一种,那么就能很容易判断出哪块是开头,拿着开头去找剩下的块,把工作量从“N*N”降低到“1*N”。

但“1*N”的工作量也不小。最大的一个文件,由7块碎片组成。找到开头以后,工程师开始扫描其他有相似性的块。运气好的时候,相似度可能只有一块,运气不好的时候 ,有二三十块。每进行一次拼接,都需要把数据块从头到尾扫描一遍,验证是否匹配。这需要大量的计算力。为了加快扫描和验证,腾讯云服务器团队还临时从上海机房调拨了100多台服务器进行算力支持。

徐勇州已经不记得这样的“打捞、拼接、扫描、验证,重新打捞、拼接、扫描、验证”进行了多少次,只记得每一次都是四五个小时的煎熬。“大家每隔一会儿就在腾讯会议上吼,好了没,好了没,快看看!”

终于,一块又一块的数据被拼接出来,核心数据逐渐被修复。“太不容易了,心情真的跟过山车一样。”

2月28日,深夜,数据修复胜利在望。

“做到100分,在云上迎接重生的微盟”

虽然最初大家并不敢断言数据能否修复,随着两边团队的共同攻坚,大家关注的焦点逐渐变成数据能不能做到100%的修复。

然而,即便是方法论经过了验证,但就像写程序一样,在一些细微的地方总会有一些意想不到的bug出现。

2月29日凌晨,恢复到最后一台服务器时,徐勇州和技术团队盘查发现,前面找回来的那些数据只有整体数据量的70%-80%。按照前面核心数据恢复的方法推演,如果逻辑成立的话,此时恢复的数据应该是100%。

剩下的数据去哪了?到底是哪个环节出了问题?“我们的目标是要做100分,哪怕失掉5分,对一个商家来说可能就是全部。”徐勇州和团队连夜把所有的数据又重新盘点了一遍,把验证的逻辑再推导了一遍:扫描了多少?提取了多少?哪些校验过?哪些没有?

又是一夜未眠。3月1日凌晨,终于在另一个的区段中,被遗漏的数据被“打捞”了出来。原来有一部分数据在提取时因为环境等各种原因被疏忽了,在把所有的数据都汇总整理和对齐后,很快找到了对应的那段未提取区段,然后又是进行紧张的“打捞、拼接、扫描、验证”,但这时的团队已经是技术娴熟,胸有成竹。

3月1日晚,微盟发布公告称,数据已经全面找回。同时宣布基础设施全力上云。

根据微盟公告,微盟将采取以下措施提升对数据安全的保障:首先在权限管理方面,使用腾讯云CAM权限系统进行云资源管理,严格执行分级授权和最小集权制度,对高危险动作执行二次授权制度;使用腾讯云堡垒机替换自建堡垒机,进行细粒度许可权分级和授权管理。

其次,在北京、上海、南京等地区建立全备份的冷备系统架构,借助腾讯云IaaS的底层服务能力,建立高可用的同城双活架构;所有非结构化数据使用腾讯COS对象存储系统进行归档保存并启用多异地复制功能。

最后,借助腾讯云数据库MySQL的数据高可用和安全体系,逐步放弃自建数据库服务,迁移到腾讯云数据库(CDB),提升数据库跨可用区和易地灾备的能力,同时,将原来合作的黑石1.0物理机全面升级黑石2.0,全面使用云主机。

在徐勇州看来,微盟事故的发生对其他企业的数据安全保护也敲响了警钟,数据安全事件背后折射出的是,仅仅依靠单点防护难以达到真正的安全防护效果,而构建基于全生命周期的安全防护成为必然选择。

微盟公告发出以后,腾讯云技术团队在微信群里收到了微盟团队的集体致谢。那个全程见证事件进展的超长腾讯会议的会议号,被团队提议作为一个永久的番号保留。

1、­­­香港主机线路选择。

BGP互通优先,目前基本上都实现了互通,但是不同的服务器商的实力不同,接入的线路也会有所差异,有电信直连,联通直连等,但是BGP线路,接入了电信、联通、移动、等各大网络运营商,通过BGP协议实现互联。使用BGP线路还有一个优势是,即使其他线路出现问题,也可以保证正常访问,如联通无法连接,但是电信能够正常访问,这就保障了网站能够正常被访问。

另外,还有很多主机商使用电信直连的CN2线路,基本ping值会低10ms左右,且是电信直连,不会受到国际带宽出口影响,CN2线路是多业务的承载网络可以同时支持语音、数据、视频、专线、国技互联等业务,而且由于必须要保证SLA业务,会在延迟,单向丢包率方面提升比较高,类似bluehost的美国SSD独立服务器,多IP服务器都已经接入CN2线路,访问速度都是相对来说非常快。

2、香港机房的选择。

越是大机房,其线路,带宽,配置就会越好。机房也有等级划分,一般星级越高,机房的服务及配置也相应的越好。比如我们常说的新世界机房,就是五星级机房,环境好配置高,线路多,带宽足。机房好,独立服务器运行的在线率也会得到保障,这都是每个产品消费者非常看重的参数指标。

3、IP资源。

尤其是选择独立主机的站长,对IP的资源还是非常看重的,无论是对SEO优化还是使用无污染的IP段来做一些店铺的测试等,IP在选择香港主机过程中也是一个非常重要的因素,这里推荐一下bluehost的多IP站群服务器,拥有129个免费独立IP,能够实现不同IP做站群推广。

4、带宽。

一般目前的香港带宽基本是默认在2M,3M,5M,10M,而且这里面还分两种,包括分峰值和独享两种,换成比较容易理解的就是共享和独享,需要注意点是,基本香港的独享带宽5M,10M是非常高的配置了,尤其是很多服务器商声称是10M,但只是峰值,∞实际使用可能只有5,6M左右。如果要实际超过这个带宽,增加带宽的费用也是比较昂贵的,大概是600-2000不等的费用。

5、系统选择。

单独拎出系统,主要是Windows和Linux在使用过程中,还是有很大区别的,比如Windows经常会被限制IIS连接数,导致实际有足够的配置,但实际使用过程中会低于这个配置。

6、其他需要注意的因素。

除了以上比较关系到香港主机使用的因素,还有一些硬件和软件方面的服务配置,比如CPU需要如何选择,内存选择多大的,硬盘是考虑SSD 还是HDD等,这些都是标配,也是很多客户看到香港主机的必备参数,主要原则就是货比三家,对比几款不同的配置,就能得出一个大概的配置价格。

酷酷云服务器为您诚意解答


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/494514.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-14
下一篇2023-06-14

发表评论

登录后才能评论

评论列表(0条)

    保存