为此,蚁巡运维平台尝试引入一种新的方式,通过远程实时监控服务器硬盘的健康状态,达到在不增加硬件成本和管理成本的基础上保障数据安全的做法。通过蚁巡运维平台,可以自动发现安装了SMART标准技术的硬盘并远程监控其磁盘的健康指标。
S.M.A.R.T的全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。几乎所有主流的硬盘,包括固态硬盘都支持这一技术。但该技术只适用于单机环境,且必须手工获取数据,使用该技术防止硬盘故障的管理成本很高。而在蚁巡中,可以批量的、远程的、实时的监控使用了该技术的硬盘,大大降低了管理成本。
同时,通过蚁巡还可以获得硬盘的使用时间、使用次数等基本指标数据。可以有效的评估硬盘的使用情况,从而进一步评估设备的使用率、寿命等信息。
据统计,通过这项技术,可以提前发现超过60%的硬盘故障,给企业带来的价值无可估量。
nagios用的不是root, su 到nagios用户, 再执行命令行。 看看结果。执行完脚本后, 执行echo $? 0代表OK, 1代表WARNING, 2代表CRITICAL。
个人感觉应该是脚本权限不足。
脚本逻辑比较简单。 你可以自己看一下。
$status = $ERRORS{OK}$message = ''
check_megaide if( -d "/proc/megaide" )# Linux, hardware RAID
check_mdstat if( -f "/proc/mdstat" )# Linux, software RAID
check_lsraid if( -x "/sbin/lsraid" )# Linux, software RAID
check_metastat if( -x "/usr/sbin/metastat" )# Solaris, software RAID
check_vg if( -x "/usr/sbin/lsvg" )# AIX LVM
check_ips if( -x "/usr/local/bin/ipssend" )# Serveraid
if( $message ) {
if( $status == $ERRORS{OK} ) {
print "OK: "
} elsif( $status == $ERRORS{WARNING} ) {
print "WARNING: "
} elsif( $status == $ERRORS{CRITICAL} ) {
print "CRITICAL: "
}
print "$message\n"
} else {
print "No RAID configuration found.\n"
}
exit $status
1. 支持监控10台Windows、Linux服务器和网络设备,或者50个PING和URL;2. 监控内容包括:CPU、内存、磁盘、网卡、进程、端口、目录、文件、日志、端口up/down、流量、带宽、丢包率、错包率、网络可用性、URL下载时间、网页防篡改等上百个指标参数;
3. 支持邮件、短消息、声音和远程声音告警;
4. 支持健康报告、指标报告、对比报告等多种报告;
5. 支持状态统计、我的仪表盘、管理对象和监测点等多种视图显示。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)