记一次解决阿里云服务器偶尔连接不上的问题（由tcp_tw_recycle参数引发的）_服务器知识

阿里云服务器偶尔连接不上的问题出现在我做了一些TCP优化之后，出现了公司内网偶尔会出现连接不上服务器的问题，但是切换其他的网络就可以正常连接。

1，登陆服务器查看资源使用top，vmstat等命令查看了一番发现服务器各项指标都没有异常。于是将问题转向了网络层。

2，本地使用ping服务器外网ip正常返回，无丢包，延迟也正常。

3，登录服务器查看tcp相关数据。

发现在卡顿时有大量tcp syn包被丢弃，数值一直在增长。

在查阅资料并结合实际情况后，发现该服务器同时启用了 tcp_timestamps和tcp_tw_recycle参数。

后想起，之前同事为改善time_wait连接数过多问题曾改过该内核参数。

解决办法是，关闭tcp_tw_recycle：

再观察，发现服务已正常，偶尔连接不上的现象消失。

我们先来man一下这两个参数(man tcp)：

cp_timestamp 是 RFC1323 定义的优化选项，主要用于 TCP 连接中 RTT(Round Trip Time) 的计算，开启 tcp_timestamp 有利于系统计算更加准确的 RTT，也就有利于 TCP 性能的提升。（默认开启）

关于tcp_timestamps详情请见： https://tools.ietf.org/pdf/rfc7323.pdf

开启tcp_tw_recycle会启用tcp time_wait的快速回收，这个参数不建议在NAT环境中启用，它会引起相关问题。

tcp_tw_recycle是依赖tcp_timestamps参数的，在一般网络环境中，可能不会有问题，但是在NAT环境中，问题就来了。比如我遇到的这个情况，办公室的外网地址只有一个，所有人访问后台都会通过路由器做SNAT将内网地址映射为公网IP，由于服务端和客户端都启用了tcp_timestamps，因此TCP头部中增加时间戳信息，而在服务器看来，同一客户端的时间戳必然是线性增长的，但是，由于我的客户端网络环境是NAT，因此每台主机的时间戳都是有差异的，在启用tcp_tw_recycle后，一旦有客户端断开连接，服务器可能就会丢弃那些时间戳较小的客户端的SYN包，这也就导致了网站访问极不稳定。

主机A SIP:P1 (时间戳T0) --->Server 主机A断开后

主机B SIP:P1 (时间戳T2) T2 <T0 --->Server 丢弃

经过此次故障，告诫我们在处理线上问题时，不能盲目修改参数，一定要经过测试，确认无误后，再应用于生产环境。同时，也要加深对相关内核参数的认识和理解。

本文解决灵感来自于 https://blog.51cto.com/hld1992/2285410

https://blog.csdn.net/chengm8/article/details/51668992

有事情干的时候，如果Sleep时间太长，就会导致有足够的CPU，却不干活。查一下有没有什么地方使用到了遍历。如果有存在就需要进行优化。有一个程序，一个数组也不大，也就五十个元素，但是当多次调用的时候，由于遍历，明显导致CPU无故地被占用在遍历过程当中。另外一个就是多线程当中的同步。线程并不是越多越好，线程越多所导致的碰撞越大，反倒会阻碍其它线程的工作。

1、程序占用太多资源；

2、防火墙设置问题。

1、防火墙拦截了。请检查iptables和windows防火墙是否规则设置错误（通过VNC），如果是请关闭防火墙或者修改规则，服务器上有安全狗的话把端口安全策略关掉。

2、安全组（阿里云上的）检查，是不是把 0.0.0.0 允许所有连接这条规则给删除了，如果是请改回来，如果有其他规则请删除。

3、可能就是你本地网络的问题吧，或者是服务器被DDOS进入了黑洞。

4、使用了IIS建站。如果是，必须要设置分页内存，否则会经常性的出现无法访问。方法：计算机右键—>属性—>点击高级项卡（高级系统设置）—>高级—>性能—>设置，分页内存默认0，把分页内存调大，500-5000或者自定义再调大点。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/422192.html

记一次解决阿里云服务器偶尔连接不上的问题（由tcp_tw_recycle参数引发的）

发表评论

评论列表（0条）