B站服务器机房发生故障,造成了多方面的后果。从影响上来说,创下了多个热搜;从用户的角度来说,减少了熬夜时间;从其他同类型网站角度来说,无辜躺枪了。
网上有一条关于“B站崩了”的热搜,让很多人知道了B站服务器机房故障。现在B站也算是国内的主流视频平台之一,每天有大量的用户。服务器无法使用,用户自然只能跑到其他平台。由于其他平台比较小,远远比不上B站,大量用户的涌入,直接导致了他们的服务器崩塌。一家崩,全员崩,形成了一个连锁反应。
1、事情经过B站在一天晚上,突然出现了服务器无法访问的情况,当时不是个别现象,而是全体用户。在经过技术团队的排查之后,确定了原因,是部分服务器机房发生的故障。因为现在B站做得很大,即使到了晚上也有很多用户,所以立马上了热搜。
随后相关的工作人员也出来解释,表示问题正在解决,相关的服务器已经恢复正常,大家可以向往常一样使用。其实出现这个问题,是很正常的一件事,很多网站都出现过类似的现象。
2、引起的后果众所周知,B站不是传统意义上的主流平台,它兼顾视频、短视频、二次元、主播等多个方向。因此B站崩了之后,直接引起了连锁反应。
为了继续看相关内容,网友们先后进入到A站、豆瓣、晋江等多个相关平台。因为这些平台本身用户是一个平稳的状态,突然涌入的用户让服务器措手不及,于是就出现了连环崩的情况。这几个相关的平台无一幸免,全部加入到了维修服务器的行列,让原本处于这些平台的用户,也无法继续,只能选择睡觉。热搜也从“B站崩了”,变成了“B站、A站、豆瓣、晋江都崩了”。
3、减少了用户熬夜要说这次事件产生的一个好影响,那就是减少了用户的熬夜时间。现在很多人明明第二天有课程、有工作、有业务,可是仍然会选择熬夜看视频,以至于第二天没有精力。随着全平台的服务器崩坏,大家不得不选择睡觉,熬夜时间大大减少。把所有平台的用户熬夜时间叠加在一起,这可不是一个小数字。事情发生后,还有很多网友调侃,说自己可以睡个好觉了。
过度网络流量导致网络瘫痪1.系统在早上9点的时候非常慢,单台服务器占用流量很大,使交换机流量被占满,而连累挂在同一交换机上的其他应用也无法提供服务,或者速度非常慢2.通过查看进程发现大量的perl程序占用了大量的CPU,并且无法被kill掉
3.通过查看网络设备的监控,发现网络带宽在8点20分左右被OA服务器所在的交换端口占满,拔掉该OA服务器的网线,网络恢复正常,重新插上系统瘫痪,可以断定问题出在该服务器上
4.重启系统后恢复正常
防火墙日志
流量走势
临时解决办法:
1.将OA系统挂载在单独的交换机上,并且对该交换机连接OA的端口限速,这样可以保证OA不会占用过多的带宽
2.安装安全狗服务器版,找到了部分asp的程序(没有对asp过滤,里面有一句话木马,系统是PHP的)
3.启用硬件防火墙的防DDOS功能
咨询多方专家后给出的解决方案如下:
1.针对系统做优化(这样可以抵御少量的攻击)
2.够买专业的防火墙设备
3.把系统迁移到云服务器上,用云来清洗流量
4.在系统发生故障时抓包,对包进行分析
# tcpdump -i em1 -w >/tmp/em120160317
5.使用nethops进行流量定位,找到引发流量对应的程序
# yum -y install nethogs
Loaded plugins: fastestmirror, refresh-packagekit
Loading mirror speeds from cached hostfile
* base: centos.ustc.edu.cn
* extras: ftp.sjtu.edu.cn
* updates: ftp.isu.edu.tw
Setting up Install Process
No package nethogs available.
Error: Nothing to do
# yum install epel-release -y
# nethops em1
真实的解决方法:
通过咨询其他同事,之前在北京的应用windows系统碰到类似的情况,是病毒引起的,杀毒后解决了问题,但当时可能被杀毒软件误删了操作系统文件,需要谨慎
后来搜索了下还真有linux下的杀毒软件
此次我们选择了nod32 linux x64版进行杀毒,查杀出了恶意木马,经过几天的观察发现没有再次出现服务器大量带宽被占用的情况,该问题暂时得到缓解
为什么选nod32,是因为之前在上一家公司任职的时候也碰到类似2003系统占用大量带宽使公司员工都上不了网的情况,用nod32杀掉蠕虫后解决问题
具体安装步骤,请参考前面的博文:
centos系统安装nod32杀毒软件并通过xmanager进行远程管理
安装需要输入用户名及注册码,输入后并升级到最新版本的病毒库
通过安装nod32 linux 64位版,升级病毒库以后,确实干掉了进程中出现的perl脚步,并且运行的用户也对上了,该事件暂告一段落
注意:
需要测试,不要直接在服务器运行,中间碰到了很多问题,测试的时候没有碰到类似问题(硬件不一样,测试环境是联想的PC,生产环境的服务器是dellr720,这个需要引起注意,下班后操作,并且需要做好备机,避免出现致命问题能及时恢复)
因为你的网站服务器内存是有限的,访问量太大CUP来不及处理就会阻塞挂起,太多就会占满你的缓存,就会卡机甚至瘫痪,人家黑客攻击就是利用漏洞软件调用网上的成千上万的电脑同时访问一个服务器从而造成服务器瘫痪欢迎分享,转载请注明来源:夏雨云
评论列表(0条)