服务器监控硬盘状态

服务器监控硬盘状态,第1张

对服务器来说,硬盘因为其机械结构,是最容易出现故障的设备。但恰恰是这最容易出现故障的设备中,存储着对企业来说最至关重要的IT资源——数据。一旦硬盘出现故障,会给企业带来重大的损失。据统计,为了解决硬盘故障带来的损失,目前全球每年的数据恢复市场价值大约在千亿美元——而这仅仅是是企业损失的一小部分。近年来,为了解决这一问题衍生出了大量的技术如:Raid、双机热备等。但这些技术都是在基于增加磁盘的数量的方式来尝试解决问题,降低了数据丢失的概率,但同时大大增加了运维成本,提高了管理的难度。

为此,蚁巡运维平台尝试引入一种新的方式,通过远程实时监控服务器硬盘的健康状态,达到在不增加硬件成本和管理成本的基础上保障数据安全的做法。通过蚁巡运维平台,可以自动发现安装了SMART标准技术的硬盘并远程监控其磁盘的健康指标。

S.M.A.R.T的全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。几乎所有主流的硬盘,包括固态硬盘都支持这一技术。但该技术只适用于单机环境,且必须手工获取数据,使用该技术防止硬盘故障的管理成本很高。而在蚁巡中,可以批量的、远程的、实时的监控使用了该技术的硬盘,大大降低了管理成本。

同时,通过蚁巡还可以获得硬盘的使用时间、使用次数等基本指标数据。可以有效的评估硬盘的使用情况,从而进一步评估设备的使用率、寿命等信息。

据统计,通过这项技术,可以提前发现超过60%的硬盘故障,给企业带来的价值无可估量。

nagios用的不是root, su 到nagios用户, 再执行命令行。 看看结果。

执行完脚本后, 执行echo $? 0代表OK, 1代表WARNING, 2代表CRITICAL。

个人感觉应该是脚本权限不足。

脚本逻辑比较简单。 你可以自己看一下。

$status = $ERRORS{OK}$message = ''

check_megaide if( -d "/proc/megaide" )# Linux, hardware RAID

check_mdstat if( -f "/proc/mdstat" )# Linux, software RAID

check_lsraid if( -x "/sbin/lsraid" )# Linux, software RAID

check_metastat if( -x "/usr/sbin/metastat" )# Solaris, software RAID

check_vg if( -x "/usr/sbin/lsvg" )# AIX LVM

check_ips if( -x "/usr/local/bin/ipssend" )# Serveraid

if( $message ) {

if( $status == $ERRORS{OK} ) {

print "OK: "

} elsif( $status == $ERRORS{WARNING} ) {

print "WARNING: "

} elsif( $status == $ERRORS{CRITICAL} ) {

print "CRITICAL: "

}

print "$message\n"

} else {

print "No RAID configuration found.\n"

}

exit $status

1. 支持监控10台Windows、Linux服务器和网络设备,或者50个PING和URL;

2. 监控内容包括:CPU、内存、磁盘、网卡、进程、端口、目录、文件、日志、端口up/down、流量、带宽、丢包率、错包率、网络可用性、URL下载时间、网页防篡改等上百个指标参数;

3. 支持邮件、短消息、声音和远程声音告警;

4. 支持健康报告、指标报告、对比报告等多种报告;

5. 支持状态统计、我的仪表盘、管理对象和监测点等多种视图显示。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/655575.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-23
下一篇2023-07-23

发表评论

登录后才能评论

评论列表(0条)

    保存