四,服务器故障排查方法总结
问题描述:
每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。
查找步骤:
1、查找top检查服务器负载是否有问题
一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了
2、在服务器中查看网站的访问记录
这些访问记录存储在:/home/对应的网站名/access-logs/对应的网站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进行重启,对apache进行重启
service mysql restart
service httpd restart
重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。
4、查找数据库错误日志
首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用
还有一种方法,就是通过ps -ef | grep mysql来查看
或者也可以通过进入mysql,使用select @@basedir as basePath from dual来查看mysql安装目录
我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析
mysql有以下几种日志
错误日志:-log-err
查询日志:-log
慢查询日志:-log-slow-queries
更新日志:-log-update
二进制日志:-log-bin
以上便是对应的数据库错误日志和慢查询日志的查看方法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
伴随着对信息化要求的不断提升,相信多数单位都会架设自己的Web服务器,来在Internet网络中发布信息、宣传自我。为了保证任何一位上网用户都能顺畅地访问到Web服务器中的内容,网络管理员在正式发布Web信息之前往往需要设置一下IIS服务器,以便确保单位的Web网站可以始终如一地稳定运行。然而很多时候,我们都会遇到Web服务器访问失败的故障现象,面对Web服务器故障,我们往往会表现得手忙脚乱,根本不知道该从何处着手,来解决这些Web服务器故障。其实,造成Web服务器故障的因素有很多,我们需要对此进行逐一排查,才能高效解决对应的Web服务器故障现象。Web服务器故障现象为了充分展示单位的形象,扩大单位的知名度,单位领导要求网络管理员,立即拿出方案,组建有个性化特色的Web站点,不仅确保单位内部的员工可以通过内网正常访问Web站点,同时还要保证外网用户也能快速地访问到本单位的站点内容。依照领导指示精神,网络管理员立即行动,挑选了一台运行性能非常高效的计算机作为服务器系统,并在其中安装、配置了Windows Server 2003系统,同时利用该系统自带的IIS组件架设了Web服务器为了提高Web站点的访问速度,网络管理员特地将Web站点所在的计算机直接连到单位千兆核心交换机上,同时将目标主机的IP地址设置成与单位普通员工所用计算机处于相同网段的地址。刚开始的时候,无论是内网用户,还是外网用户,所有用户都能正常地访问单位的Web站点。可是,没有多长时间,单位内网用户在访问Web站点时,就遇到了访问失败的Web服务器故障,具体表现为无论从哪一台客户端系统出发,使用内网地址访问单位的目标站点时,系统屏幕上都会弹出身份验证对话框,要求单位员工必须输入访问账号与密码,可是当网络管理员尝试以Web站点的系统管理员身份进行登录操作时,发现始终登录不进去更让人感觉到不可理解的是,网络管理员赶到Web服务器现场,查看其安全配置时,发现目标Web站点根本就没有启用登录验证设置,那身份验证对话框究竟是怎么弹出来的呢?Web服务器故障排查由于造成这类Web服务器故障的因素比较多,我们必须要对各种可能因素进行依次排查,才能找到具体的Web服务器故障原因,启凡合肥网络公司分析如何采取针对性措施来快速解决故障现象:1、检查安全登录设置考虑到在访问目标Web站点的时候,系统弹出了身份验证对话框,这就意味着目标Web站点可能在安全登录方面没有配置正确,造成了用户访问Web内容时必须要输入访问账号。依照这样的分析思路,网络管理员准备先检查一下Web服务器的安全登录配置参数,看看其中的设置是否正确想到做到,网络管理员立即来到目标Web主机现场,以特权账号登录其中,并依次单击“开始”/“设置”/“控制面板”选项,从弹出的系统控制面板窗口中,找到“管理工具”功能图标,并用鼠标双击该图标选项,进入对应系统的管理工具列表窗口接着再用鼠标双击IIS功能图标,弹出对应系统的IIS主控台窗口,从该窗口的左侧列表区域,找到目标Web站点所在的计算机名称,并用鼠标右键单击该计算机名称,从弹出的右键菜单中执行“属性”命令,弹出目标Web主机的属性设置窗口在该属性设置窗口中点选“目录安全性”选项卡,打开目录安全性选项设置页面下面,在该设置页面的“身份验证和访问控制”设置项右边,单击“编辑”按钮,进入身份验证和访问控制设置对话框,网络管理员发现其中的“匿名访问”、“集成Windows验证”等选项都处于选中状态,于是他尝试着将这些参数选项取消选中,之后重新从内网的一台计算机中进行Web访问,可是相同的故障现象仍然存在于是,网络管理员再次选中了“匿名访问”、“集成Windows验证”等选项,可是让他感觉非常失望的是,上面两个选项无论是选中还是没有选中,好像故障现象都存在,这就说明目标Web主机的安全登录设置与上面的故障现象并没有什么关系。2、检查上网连接设置既然登录设置以及权限设置,都影响不了Web服务器访问失败的故障现象,那问题可能出在其他地方。考虑到单位的Web服务器自从搭建成功后,网络管理员很少去改动它,那么服务器自身出现问题的可能性比较小,于是网络管理员决定从普通客户端的网络连接设置着手,看看是否是客户端自身原因引起的。网络管理员担心局域网中可能存在ARP病毒,造成了普通客户端系统访问目标Web站点时,上网数据包被强行转发到其他的主机上了,于是他立即登录进入单位局域网的核心交换机后台系统,并利用系统自带的诊断命令,对内网中每一个上网端口进行了扫描、诊断,结果发现所有上网端口的工作状态都是正常的,而且内网网络中也不存在由ARP病毒引起的地址冲突现象,这说明内网网络中不存在ARP病毒。接着网络管理员又对几台普通客户端系统的网络线缆连通性进行了测试,发现它们的状态也是正常的,并且从客户端系统中执行ping命令,来测试目标Web站点IP地址的连通性时,也是正常的,这说明普通客户端系统是可以正常访问目标Web站点的。后来,网络管理员担心客户端系统采用了代理局域网方式上网,因为采用这种方式访问目标Web站点时,需要先输入代理服务器的登录账号与密码,难道我们在进行Web站点访问操作时,系统屏幕弹出的身份验证对话框,是针对代理服务器的?为了排除这种因素,网络管理员立即打开客户端系统的IE浏览器窗口,依次单击其中的“工具”/“Internet选项”,打开Internet选项设置对话框,单击其中的“连接”标签,并在对应标签设置页面中,网络管理员发现本地客户端系统并没有启用代理服务器设置,这说明Web服务器访问失败的故障与客户端系统的上网连接设置没有任何关系。3、检查目录访问权限会不会是目标Web站点所指向的主目录,对普通用户的访问权限进行了限制呢?联想到在搭建FTP站点时,如果不对FTP站点的主目录开放用户访问权限的话,那么普通用户是无法通过IE浏览器登录进入FTP站点的为此,网络管理员立即打开目标Web站点的系统资源管理器窗口,从中找到对应的主目录,用鼠标右键单击该主目录,从弹出的快捷菜单中执行“属性”命令,打开对应主目录的属性设置对话框点选其中的“安全”选项卡,网络管理员看到其中并没有everyone账号的访问权限,难道是没有对everyone账号进行授权,造成了Web服务器访问失败的故障现象?为了验证这样的猜测是否正确,网络管理员立即单击安全选项设置页面中的“添加”按钮,将everyone账号添加到账号列表中来,同时为该账号设置了合适的访问权限,最后单击“确定”按钮执行设置保存操作,原以为这样的设置操作可以解决问题了,不过网络管理员再次尝试从普通客户端系统进行Web站点的访问操作时,发现还是无法成功,很明显造成上述故障现象的因素可能不是目录访问权限。4、检查授权模式配置在排除了客户端系统的自身因素后,网络管理员再次将目光聚焦到Web服务器身上。经过上网咨询相关问题,网络管理员估计Windows Server 2003服务器系统的授权模式可能被意外修改,因为服务器授权模式要是设置不当时,很可能出现用户无论输入什么登录账号都无效的故障现象。想到做到,网络管理员立即登录进入Web服务器系统,依次单击“开始”/“设置”/“控制面板”命令,在弹出的控制面板窗口中双击“授权”图标,弹出授权模式配置窗口,在这里网络管理员发现目标Web站点当前使用的是“每服务器”授权模式为了判断该参数是否对Web访问有影响,网络管理员将授权模式修改为了“每设备或用户”选项,并且重新启动了一下Web服务器系统,然而这样的调整也没有取得任何效果,看来授权模式配置也对Web访问操作没有直接的影响。5、检查其他Web服务经过上述排查,网络管理员确认Web服务器以及客户端系统自身状态都是正常的,单位内网的线路也是正常的,那为什么客户端系统偏偏会在访问单位Web站点时,弹出身份验证对话框,并且无论输入什么用户账号都没有用呢?经过仔细分析,网络管理员估计局域网中可能同时存在其他的Web服务,而其他Web服务恰好又抢用了单位Web服务器的站点地址,最后造成了单位员工在进行Web访问时,实际上是访问了其他一个没有经过正确配置的Web站点。正当网络管理员准备排查局域网中究竟是否存在其他的Web服务时,一个故障电话突然打了进来,说单位新买的打印机突然无法正常网络打印了,那么这个故障会不会与Web服务器访问失败现象有什么必然的联系呢?想到这一点,网络管理员立即赶到网络打印机现场,登录进入该设备的后台管理页面,检查其配置参数时,发现该设备的日志页面提示说存在地址冲突现象,仔细一看,网络管理员发现那个冲突的地址竟然就是单位Web站点的地址,难道我们从内网客户端系统访问目标站点时,访问的却是打印机后台管理系统?既然存在地址冲突现象,网络管理员立即动手为网络打印机重新分配了一个地址,之后他再次对目标Web站点进行了访问操作,这一次很顺利地打开了对应站点内容,显然Web服务器故障现象已经被成功解决了。Web服务器故障总结经过更深入地检查,网络管理员发现打印机设备默认运行了Web服务,那样一来打印用户就能通过Web方式对打印设备进行远程管理而在默认状态下网络打印机没有启用匿名访问功能,如此一来当网络打印机使用了单位Web站点的IP地址时,上网用户其实访问的就是打印机后台管理页面,而该页面是需要进行身份验证的,这也是普通用户为什么访问目标站点时会弹出身份验证对话框的原因了,而网络管理员由于没有输入网络打印机授权的用户账户,才会出现无论输入什么用户账号也不能成功登录的现象了。此次Web服务器故障的元凶就是这个原因。回顾上面的Web服务器故障排除过程,我们发现此次的Web服务器故障排查其实很简单,如果我们能够及时注意到局域网中新增加了网络打印机的话,那么在进行故障排查时我们或许就能注意到该变化会对Web服务器故障造成影响了。为此,我们日后在排查网络故障之前,应该先观察网络环境中是否存在变化,如果有变化的话,再对该变化展开针对性思考与联想,那样的话故障解决起来就不会绕弯子了。主板报警声音详解
1)AWARD的BIOS设定为:
长声不断响:内存条未插紧。
2短:系统正常启动。
2短:CMOS设置错误,需重新设置。
1长1短:内存或主板错误。
1长2短:显示器或显卡错误。
1长3短:键盘控制器错误。
1长9短:主板BIOS的FLASH RAM或EPROM错误。
2)AMI的BIOS设定为:
1短:内存刷新故障。
2短:内存ECC校验错误。
3短:系统基本内存检查失败。
4短:系统时钟出错。
5短:CPU出现错误。
6短:键盘控制器错误。
7短:系统实模式错误。
8短:显示内存错误。
9短:BIOS芯片检验错误。
1长3短:内存错误。
1长8短:显示器数据线或显卡未插好。
3)Phoenix的BIOS自检响铃及其意义
1短 系统启动正常
1短1短1短:系统加电初始化失败
1短1短2短:主板错误
1短1短3短:CMOS或电池失效
1短1短4短:ROM BIOS校验错误
1短2短1短:系统时钟错误
1短2短2短:DMA初始化失败
1短2短3短:DMA页寄存器错误
1短3短1短:RAM刷新错误
1短3短2短:基本内存错误
1短4短1短:基本内存地址线错误
1短4短2短:基本内存校验错误
1短4短3短:EISA时序器错误
1短4短4短:EISA NMI口错误
2短1短1短:前64K基本内存错误
3短1短1短:DMA寄存器错误
3短1短2短:主DMA寄存器错误
3短1短3短:主中断处理寄存器错误
3短1短4短:从中断处理寄存器错误
3短2短4短:键盘控制器错误
3短1短3短:主中断处理寄存器错误
3短4短2短:显示错误
3短4短3短:时钟错误
4短2短2短:关机错误
4短2短3短:A20门错误
4短2短4短:保护模式中断错误
4短3短1短:内存错误
4短3短3短:时钟2错误
4短3短4短:时钟错误
4短4短1短:串行口错误
4短4短2短:并行口错误
4短4短3短:数字协处理器错误
4)兼容BIOS报警音代码
1短:系统正常
2短:系统加电自检(POST)失败
1长:电源错误,如果无显示,则为显示卡错误
1长1短:主板错误
1长2短:显卡错误
1短1短1短:电源错误
3长1短:键盘错误
在维修电脑的时候,我们会经常遇到开机时,BIOS的错误提示声音,如果我们熟悉这些声音的缘由,那我们排除电脑故障时就非常方便,能够在最短的时间内解决问题。
1、“嘀嘀…”连续的短音
一般情况下常见于主机的电源有问题。不过有时候电源输出电压偏低时,主机并不报警,但是会出现硬盘丢失,光驱的读盘性能差,经常死机的情况。当出现这些情况时,最好检查一下各路电压的输出,是否偏低,当+5V和+12V低于10%时,就会不定期的出现上述的问题。因为电源有电压输出,经常会误以为主板的问题或硬盘问题,而浪费好多时间。造成输出电压偏低的原因是输出部分的滤波电容失容或漏液造成的,直流成份降低时,电源中的高频交流成份加大,会干扰主板的正常工作,造成系统不稳定,容易出现死机或蓝屏现象。
不过这种情况在INTEL和技嘉的某类主板上,如果系统出现“嘀嘀…”连续短鸣声,并不是电源故障,而是内存故障报警,这一点需要注意。
2.“呜啦呜啦”的救护车声,伴随着开机长响不停
这种情况是CPU过热的系统报警声,大多是因为在为主机内部除尘,打扫CPU散热器或者是因为更换了新的CPU风扇,因为安装不到位,CPU散热器与CPU接触不牢,有一定的空间或其间加有杂物,导致CPU发出的热量无法正常散出,一开机CPU就高达80-90℃。如果是PIII以下的CPU,因为CPU的温度测试是采用靠近CPU附近的温度探头来采集的,显示的温度数值与CPU实际的温度数值有一定的误差,大约有10-20℃的差别。而PIV的CPU的温度传感器是集成在CPU内部,这时系统显示的CPU温度比较准确。一般主机只要一开机,系统提示的CPU温度就在50℃左右,这是正常的。
3.“嘀…嘀…”的连续有间隔的长音。
这是内存报警的声音,一般是内存松动,内存的金手指与内存插槽接触不良,内存的金手指氧化,内存的某个芯片有故障等原因。
4.“嘀…,嘀嘀”一长两短的连续鸣叫
这是显卡报警,一般是显卡松动,显卡损坏,或者主板的显卡供电部分有故障。
5.“嘟嘟”两声长音后没有动静,过一会儿会听到“咯吱咯吱”的读软驱的声音。
如果有图像显示会提示系统将从软驱启动,正在读取软盘。如果软驱中没有软盘,系统会提示没有系统无法启动,系统挂起。
6.在WIN系统下按“Caps Lock”和“Num Lock”与“Scroll Lock”这三个键时,主机的PC喇叭有“嘀”的类似按键音。
例如三帝的PV40ML,这种情况是主板的一种提示功能,提示用户改变了键盘的输入状态,不是故障。但是因为有的人不明白其中缘伪,便认为是主板有问题。
7.短促“嘀”的一声
一般情况下,这是系统自检通过,系统正常启动的提示音。不过,有的主板自检通过时,没有这种提示音,什么声音也没有。还要注意,有的主板自检的时间可能较长,会等五六秒钟后才会听到“嘀”的一声,需要有点耐心。
回答者:dxynew2001 - 总兵 十级
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)