云主机 CentOS Kernel Hung住处理办法

云主机 CentOS Kernel Hung住处理办法,第1张

主机无法ssh及ping通,VNC查看提示“echo 0 >/proc/sys/kernel/hung_task_timeout_secs disables this message”

1.重启云主机进行恢复无效,怀疑云主机底层资源有问题

2.查看宿主机上云主机的磁盘进程,有ntp未结束进程,sudo kill -9 $PID 将所有进程杀死

climc server-syncstatus 后台同步状态

climc server-start

3.进入云主机排查

sar -r 查看内存利用率,是否有大量free

sar -u 查看CPU利用率

4.如果没有core dump,可以检查/var/log/message,搜索“echo 0 >/proc/sys/kernel/hung_task_timeout_secs” disables this messageand“blocked for more than 120 seconds”

内存数据落盘时引发的故障

默认情况下,Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的。将缓存写入磁盘时,有一个默认120秒的超时时间。 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应。

另外,在进程处理于可中断的睡眠状态S 时<需要看dump>,进程要等待 如 套接字、信号量被挂起,进入到对应事件等待队列中的的这个时间太长,占用了队列空间使进程长时间处于阻塞状态,影响了进程队列的有序调度

根据应用程序情况,对vm.dirty_ratio,vm.dirty_background_ratio两个参数进行调优设置。

推荐如下设置:

# sysctl -w vm.dirty_ratio=10

# sysctl -w vm.dirty_background_ratio=5

# sysctl -p

如果系统永久生效,修改/etc/sysctl.conf文件。加入如下两行:

#vi /etc/sysctl.conf

vm.dirty_background_ratio = 5

vm.dirty_ratio = 10

重启系统生效。

保证业务的连续性。centos镜像功能可以保证数据冗余,在数据源发生故障时,能够迅速恢复,保证业务的连续性。CentOS是CommunityEnterpriseOperatingSystem的缩写,也叫做社区企业操作系统。

云主机无法ssh及ping通,端口开启。VNC中有大量“backlog limit exceeded”的提示

audit:backlog limit exceeded

audit:audit_backlog=321 >audit_backlog_limit=320

根具提示“audit_backlog=321 >audit_backlog_limit=320”,本问题锁定在,audit服务在繁忙的系统中进行审计事件操作,缓冲瓶颈!

# less/var/log/audit/audit.log

Dec 15 03:24:46 saslauthd[5892]: do_auth         : auth failure: [ user=test@cto.com ] [service=smtp] [realm=cto.com] [mech=pam] [reason=PAM autherror]

Dec 15 03:25:15 saslauthd[5890]: do_auth         : auth failure: [ user=test@cto.com ] [service=smtp] [realm=cto.com] [mech=pam] [reason=PAM autherror]

Dec 15 03:25:45 saslauthd[5889]: do_auth         : auth failure: [ user=test@cto.com ] [service=smtp] [realm=cto.com] [mech=pam] [reason=PAM autherror]

# dmesg |grep -i error

i8042: probe of i8042 failed with error -5

Linux 2.6内核有用日志记录事件的能力,比如记录系统调用和文件访问。然后,管理员可以评审这些日志,确定可能存在的安全裂口,比如失败的登录尝试,或者 用户对系统文件不成功的访问。这种功能称为Linux审计系统。Redhat 5.x版本中已经可用。配置文件/etc/audit/auditd.conf 记录了日志位置、磁盘空间等配置信息,当出现问题,优先排查配置参数是否存在性能瓶颈!然后在通过排查安全情况。

修改audit缓冲区大小参数,默认为64:

[root@ www.ctohome.com]# auditctl -b 8192

AUDIT_STATUS: enabled=1 flag=1 pid=6118 rate_limit=0 backlog_limit=8192 lost=0 backlog=1

其他:

启动audit:

检查进程:# ps -ef | grep audit*

启动audit:# auditd

开启关闭

Enable/disable:# auditctl -e 0/1


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/59946.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-02-27
下一篇2023-02-27

发表评论

登录后才能评论

评论列表(0条)

    保存