服务器监控硬盘状态_服务器知识

对服务器来说，硬盘因为其机械结构，是最容易出现故障的设备。但恰恰是这最容易出现故障的设备中，存储着对企业来说最至关重要的IT资源——数据。一旦硬盘出现故障，会给企业带来重大的损失。据统计，为了解决硬盘故障带来的损失，目前全球每年的数据恢复市场价值大约在千亿美元——而这仅仅是是企业损失的一小部分。近年来，为了解决这一问题衍生出了大量的技术如：Raid、双机热备等。但这些技术都是在基于增加磁盘的数量的方式来尝试解决问题，降低了数据丢失的概率，但同时大大增加了运维成本，提高了管理的难度。

为此，蚁巡运维平台尝试引入一种新的方式，通过远程实时监控服务器硬盘的健康状态，达到在不增加硬件成本和管理成本的基础上保障数据安全的做法。通过蚁巡运维平台，可以自动发现安装了SMART标准技术的硬盘并远程监控其磁盘的健康指标。

S.M.A.R.T的全称为“Self-Monitoring Analysis and Reporting Technology”，即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时，就会自动向用户发出警告。几乎所有主流的硬盘，包括固态硬盘都支持这一技术。但该技术只适用于单机环境，且必须手工获取数据，使用该技术防止硬盘故障的管理成本很高。而在蚁巡中，可以批量的、远程的、实时的监控使用了该技术的硬盘，大大降低了管理成本。

同时，通过蚁巡还可以获得硬盘的使用时间、使用次数等基本指标数据。可以有效的评估硬盘的使用情况，从而进一步评估设备的使用率、寿命等信息。

据统计，通过这项技术，可以提前发现超过60%的硬盘故障，给企业带来的价值无可估量。

nagios用的不是root， su 到nagios用户，再执行命令行。看看结果。

执行完脚本后，执行echo $? 0代表OK, 1代表WARNING， 2代表CRITICAL。

个人感觉应该是脚本权限不足。

脚本逻辑比较简单。你可以自己看一下。

$status = $ERRORS{OK}$message = ''

check_megaide if( -d "/proc/megaide" )# Linux, hardware RAID

check_mdstat if( -f "/proc/mdstat" )# Linux, software RAID

check_lsraid if( -x "/sbin/lsraid" )# Linux, software RAID

check_metastat if( -x "/usr/sbin/metastat" )# Solaris, software RAID

check_vg if( -x "/usr/sbin/lsvg" )# AIX LVM

check_ips if( -x "/usr/local/bin/ipssend" )# Serveraid

if( $message ) {

if( $status == $ERRORS{OK} ) {

print "OK: "

} elsif( $status == $ERRORS{WARNING} ) {

print "WARNING: "

} elsif( $status == $ERRORS{CRITICAL} ) {

print "CRITICAL: "

}

print "$message\n"

} else {

print "No RAID configuration found.\n"

}

exit $status

1. 支持监控10台Windows、Linux服务器和网络设备，或者50个PING和URL；

2. 监控内容包括：CPU、内存、磁盘、网卡、进程、端口、目录、文件、日志、端口up/down、流量、带宽、丢包率、错包率、网络可用性、URL下载时间、网页防篡改等上百个指标参数；

3. 支持邮件、短消息、声音和远程声音告警；

4. 支持健康报告、指标报告、对比报告等多种报告；

5. 支持状态统计、我的仪表盘、管理对象和监测点等多种视图显示。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/655575.html

服务器监控硬盘状态

发表评论

评论列表（0条）