服务器凌晨三点挂了,作为运维的你应该怎么办

服务器凌晨三点挂了,作为运维的你应该怎么办,第1张

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。

ping 测试主机是否存活

arp 负责将ip地址解析成mac地址

tracepath 路由跟踪

使用场景,当你的网络出现问题的时候,一般运营商会要你提供一份路由跟踪的表 就是用这个命令来实现

CPU

iftop 查看网卡流量使用 不能查询具体的应用程序使用了多少流量

nethogs 查看进程使用了具体的流量 可以查出程序的PID

用法 nethogs eth0(如果外网流量大就填外网,如果内网流量大就填内网)

通过pid使用 ps axu 和lsof查出进程 以及程序文件里面什么问题造成的

凌晨三点 有台机器的读写非常高 导致业务部正常

找出读写最高的进程出来 (pid)

查看IO占用情况

和netstat的功能一模一样,

但是当你服务器的socket连接数量非常大的时候,使用netstat就是浪费你的生命 ss最大的优势就是他比netstat快很多

随着市场竞争力不断增大,各个企业除了要增加自身产品的竞争力之外,也越来越重视消费者的服务,毕竟大家的生活质量在提高,每个产品也都相差不大,而服务就变成了用户最值得考虑的一个因素,也更好的体现了品牌的价值。这就要求公司进入了几十台到几千台服务器的运维监控阶段,无论数量如何增加,保持服务器的稳定才是重中之重,在服务器数量少于200台的时候,主要考虑简单使用、稳定运行、报警这三个方面,一旦大于这个数量,就需要相应的提升技术手段了。

基本上200台以下的服务器运营监控就是小白级操作了,如果出现一些异常系统可以第一时间进行报警,并且帮助用户解决问题,这也是最基础的要求,基本上哪怕是新手适当的进行学习就可以操作成功。而当服务器数量从200增加到1000这个阶段,这意味着用户的需求也在变复杂,那么技术人员就需要将监控内容进行统一,实现全覆盖式的监控管理,确保每一个用户出现问题时,都没有漏报的现象。

而当服务器超过1000台以上时,监控的数量越来越多,消费者的告警信息也会急速增长,每天都会收到成百上千的用户需要解决问题的消息,如果系统不进行相关的整理的话,很容易忽略到消费者的消息,从而带来非常不好的体验,这个时候就需要及时对报警信息进行相应的整理,尽量的化繁为简,减少出现重复报警的情况。并且对于内存使用率、CPU使用率等模块进行独立的设置,做到权责分明、快速定位、及时处理。

综上所述,每个公司的业务不同,那么对于服务器的要求也不太同,不论发生怎么样的变化,基本上只要有了相关的监控数据,就能够通过技术来分析出想要的结果,想要随着时代一起进步,就需要不断的更新维护、高效运维。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/800410.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-28
下一篇2023-08-28

发表评论

登录后才能评论

评论列表(0条)

    保存