AIOps:有大量服务器监控指标的情况下如何做异常检测?

AIOps:有大量服务器监控指标的情况下如何做异常检测?,第1张

在搭建服务器时,除了部署webapp之外,还需要服务的异常信息与服务器性能指标进行监控,一旦有异常则通知管理员。

服务器使用Linux+Nginx-1.9.15+Tomcat7+Java搭建的。

编写脚本检测错误日志和服务器性能指标,一旦新生错误日志或者性能降低到设定的阈值时,则使用云监控将报警上传到云账号。

服务运行监控

错误日志包含以下三个方面:

nginx 错误信息监控(nginx.conf配置)

${NGINX_HOME}/logs/error.log

tomcat 错误信息监控(server.xml配置)

${TOMCAT_HOME}/logs/catalina.out

webapp错误信息监控(log4j)

${WEBAPP_HOME}/log/error

1. zabbix:是一个基于Web界面的提供分布式系统监视以及网络监视功能的企业级开源解决方案。Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位,解决存在的各种问题。

2. Nagios:是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报警时间通知运维人员,在状态恢复后发出正常的邮件或短信通知。

3. Anturis:是一个基于云平台的Saas平台,可监控Windows、Linux服务器,网站和IT基础架构,通过全面的监控解决方案列表,让管理员快速了解整体主机或者服务器瓶颈与风险。

4. SeaLion:是一个基于云的Linux服务器监控工具,也是通过统一的仪表盘监控所有服务器指标,它只需几分钟即可完成设置,具有即时报警功能。

5. lcinga:是一个免费的开源监控系统,可以检查服务器资源的可用性,它会记录服务器问题并在停机的时候通知您。

6. Munin:是一个网络和系统监控工具,可帮助您分析服务器资源趋势,旨在成为一个即插即用的解决方案,安装后无需太多额外工作即可收集关键信息。

7. Monit:是一个用于管理和监控Unix系统的开源工具。可以进行自动维护和维修,如果出现错误情况,还可以自动触发保护行为。

8. Pingdom:可以对互联网上很多地方的服务器以及网站进行监控,以保证他们可以有效的运行通过Pingdom,可以对电子邮件的服务器、FTP服务器、受密码保护的那些网站进行监控。

随着市场竞争力不断增大,各个企业除了要增加自身产品的竞争力之外,也越来越重视消费者的服务,毕竟大家的生活质量在提高,每个产品也都相差不大,而服务就变成了用户最值得考虑的一个因素,也更好的体现了品牌的价值。这就要求公司进入了几十台到几千台服务器的运维监控阶段,无论数量如何增加,保持服务器的稳定才是重中之重,在服务器数量少于200台的时候,主要考虑简单使用、稳定运行、报警这三个方面,一旦大于这个数量,就需要相应的提升技术手段了。

基本上200台以下的服务器运营监控就是小白级操作了,如果出现一些异常系统可以第一时间进行报警,并且帮助用户解决问题,这也是最基础的要求,基本上哪怕是新手适当的进行学习就可以操作成功。而当服务器数量从200增加到1000这个阶段,这意味着用户的需求也在变复杂,那么技术人员就需要将监控内容进行统一,实现全覆盖式的监控管理,确保每一个用户出现问题时,都没有漏报的现象。

而当服务器超过1000台以上时,监控的数量越来越多,消费者的告警信息也会急速增长,每天都会收到成百上千的用户需要解决问题的消息,如果系统不进行相关的整理的话,很容易忽略到消费者的消息,从而带来非常不好的体验,这个时候就需要及时对报警信息进行相应的整理,尽量的化繁为简,减少出现重复报警的情况。并且对于内存使用率、CPU使用率等模块进行独立的设置,做到权责分明、快速定位、及时处理。

综上所述,每个公司的业务不同,那么对于服务器的要求也不太同,不论发生怎么样的变化,基本上只要有了相关的监控数据,就能够通过技术来分析出想要的结果,想要随着时代一起进步,就需要不断的更新维护、高效运维。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/507212.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-17
下一篇2023-06-17

发表评论

登录后才能评论

评论列表(0条)

    保存