四,服务器故障排查方法总结
问题描述:
每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。
查找步骤:
1、查找top检查服务器负载是否有问题
一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了
2、在服务器中查看网站的访问记录
这些访问记录存储在:/home/对应的网站名/access-logs/对应的网站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进行重启,对apache进行重启
service mysql restart
service httpd restart
重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。
4、查找数据库错误日志
首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用
还有一种方法,就是通过ps -ef | grep mysql来查看
或者也可以通过进入mysql,使用select @@basedir as basePath from dual来查看mysql安装目录
我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析
mysql有以下几种日志
错误日志:-log-err
查询日志:-log
慢查询日志:-log-slow-queries
更新日志:-log-update
二进制日志:-log-bin
以上便是对应的数据库错误日志和慢查询日志的查看方法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
1、服务器常见的故障及其排除方法
服务器中的某项服务被停止 •系统资源不足 •服务器软件故障
服务器软件故障是在服务器故障中占有比例最高的部份,约占70%。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。服务器软件设置不当也会可能造成网络故障。
管理方面的问题
如用户的帐户和安全设置方面的潜在问题,服务权限没有给用户、配置不当或限制某些服务等问题
2 服务器故障排除的基本原则
服务器故障排除的基本原则如下:
(1) 尽量恢复系统缺省配置
(2) 从基本到复杂
首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理;然后从可以运行的硬件开始逐步到现实系统为止;最后从基本操作系统开始逐步到现实系统为止。
(3)交换对比
首先在最大可能相同的条件下,交换操作简单效果明显的部件;其次是交换软件环境;再者是交换硬件,既交换硬件环境;最后是交换整机,既交换整体环境。
在服务器故障排除时,需要收集如下一些信息:
服务器信息:机器型号(P/N:)、机器序列号(S/N:)、Bios 版本、是否增加其它设备(如网卡,SCSI 卡,内存,CPU等)、硬盘如何配置和安装什么操作系统及版本。
故障信息:在POST(加电自检)时,屏幕显示的异常信息、服务器本身指示灯的状态和报警声,以及操作系统的事件记录文件等信息。
确定故障类型和故障现象:开机无显示;上电自检阶段故障;安装阶段故障和现象;操作系统加载失败和系统运行阶段故障。
众所周知,服务器是需要全年365×24H不间断的运行 ,而且它承载着多种复杂的应用,加之服务器也远在机房内。租用服务器后, 很多用户会碰到各种各样的问题。其中有一些很简单,但却弄的客户苦不堪言的问题,例如服务器频繁重启就是其中一项。耀磊花楹为大家整理了一些常见重启故障以及解决方法,供大家参考。一、 硬件问题
① 增添新硬件(硬盘、刻录机等)后功率超出电源输入的额定功率。我们可以更换一个更大功率的电源。
② 超负荷运行,CUP资源占用过高,需要更大功率供电时,电源由于过载而引起电源保护。同样,可以更换一个更大功率的电源。
③ 刻录盘/硬盘内部电路或者损坏。由于光驱/硬盘内部电路问题,或者损坏了,就会导致服务器在运行过程中突然重启。这时候就需要我们检查这些硬件设备,进行更换。
④ 主板故障。主板出现故障的情况很少,一般都是与RESET相关的电路出现故障插槽虚焊,接触不良。个别芯片、电容元件的损害。像这种比较少见的问题如果发生了,就比较麻烦,需要专业的人员进行检察、维修。
⑤ CUP温度过高、内存热稳性不佳。当服务器超负荷运行,或者内部积灰较多,都会导致CUP温度过高,而自动重启。内存当上升到一定温度时,由于热稳性不良,也将不能正常工作,而出现死机或者重启。我们可以经常清洁服务器内部的灰尘,或者改良散热系统。
二、[endif]软件问题
① 病毒一直都是服务器的一大威胁。像感染“冲击波”病毒时,系统会经常提示将在1分钟后自动重启。木马程序可以远程控件服务器的一举一动,当然,包括重启咯。我们需要清除病毒,或者重装系统。
② 软件冲突。在同时启动2某两个或者以上的软件时,系统会发生重启。我们可以再启动软件前,打开任务管理器,看个软件的资源占用过高,找到后卸载。
③ 系统文件损坏、驱动问题。由于操作失误、或者系统自身问题,导致系统文件被损坏,比如Win2000 kernel32.dll、win98 fonts这些系统文件非常容易出问题,系统在启动时会因无法加载这些系统文件而强迫重启。面对这类问题,我们可以覆盖安装或者重新安装。
我耀磊花楹
河南耀磊商务
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)