爬虫一直在扫ftp服务器端口_服务器知识

几种问题

1.速度限制

速度限制是对抗爬虫的一种常见的方法，它的工作方式很简单：网站强制用户可以从单个IP地址执行有限数量的操作。限制可能因网站而异，并基于在特定时间段内执行的操作数量或用户使用的数据量。

2..验证码提示

验证码是另一种更复杂的限制网络抓取的方法。用户可以通过在短时间内发出过多请求、未正确覆盖网络抓取工具的指纹，或使用低质量的代理方式触发验证码。

3.网站结构变化

网站并不是一成不变的，尤其是当用户爬取大型网站时，站点经常更改 HTML 标记，以此破坏用户的网络抓取脚本。例如网站可以删除或重命名某些类或元素 ID，这将导致用户的解析器停止工作。

4.网站使用JavaScript运行

如今许多网站的功能都需要通过用户点击某些区域使得JavaScript代码运行才能正常使用，对于爬虫程序而言常规的提取工具不具备处理动态页面的功能，所以在爬取这类网站时会遇到较大的阻碍。

5.加载速度慢

当网站在短时间内收到大量请求时，其加载速度可能会变慢并变得不稳定。而在网站不稳定时爬虫程序会更快的进行刷新，但这只是雪上加霜，网站会中断抓取器，以确保站点不会崩溃。

6.IP受限制

可能导致用户爬虫IP受限的因素有很多，例如用户使用的数据中心代理IP被网站识别、用户爬虫爬取速度过快被封禁等等。在遭遇这种问题时，用户可以选择使用动态爬虫代理，使得自己每次访问都使用不同的IP地址，以此来确保IP不被限制，爬虫高效爬取。

在日常的服务器维护中，会经常用到如下命令。

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

它会显示例如下面的信息：

TIME_WAIT 689

CLOSE_WAIT 2

FIN_WAIT1 1

ESTABLISHED 291

SYN_RECV 2

LAST_ACK 1

常用的三个状态是：ESTABLISHED表示正在通信、TIME_WAIT表示主动关闭、CLOSE_WAIT表示被动关闭。

如果服务器出现了异常，很大的可能是出现了以下两种情况：

我们也都知道Linux系统中分给每个用户的文件句柄数是有限的，而TIME_WAIT和CLOSE_WAIT这两种状态如果一直被保持，那么意味着对应数目的通道(此处应理解为socket，一般一个socket会占用服务器端一个端口，服务器端的端口最大数是65535)一直被占用，一旦达到了上限，则新的请求就无法被处理，接着就是大量Too Many Open Files异常，然后tomcat、nginx、apache崩溃。。。

下面来讨论这两种状态的处理方法，网络上也有很多资料把这两种情况混为一谈，认为优化内核参数就可以解决，其实这是不恰当的。优化内核参数在一定程度上能解决time_wait过多的问题，但是应对close_wait还得从应用程序本身出发。

这种情况比较常见，一般会出现在爬虫服务器和web服务器(如果没做内核参数优化的话)上，那么这种问题是怎么产生的呢？

从上图可以看出time_wait是主动关闭连接的一方保持的状态，对于爬虫服务器来说它自身就是客户端，在完成一个爬取任务后就会发起主动关闭连接，从而进入time_wait状态，然后保持这个状态2MSL时间之后，彻底关闭回收资源。这里为什么会保持资源2MSL时间呢？这也是TCP/IP设计者规定的。

TCP要保证在所有可能的情况下使得所有的数据都能够被正确送达。当你关闭一个socket时，主动关闭一端的socket将进入TIME_WAIT状态，而被动关闭一方则转入CLOSED状态，这的确能够保证所有的数据都被传输。当一个socket关闭的时候，是通过两端四次握手完成的，当一端调用 close()时，就说明本端没有数据要发送了。这好似看来在握手完成以后，socket就都可以处于初始的CLOSED状态了，其实不然。原因是这样安排状态有两个问题，首先，我们没有任何机制保证最后的一个ACK能够正常传输，第二，网络上仍然有可能有残余的数据包(wandering duplicates)，我们也必须能够正常处理。

TIMEWAIT就是为了解决这两个问题而生的。

再引用网络中的一段话：

time_wait问题可以通过调整内核参数和适当的设置web服务器的keep-Alive值来解决。因为time_wait是自己可控的，要么就是对方连接的异常，要么就是自己没有快速的回收资源，总之不是由于自己程序错误引起的。但是close_wait就不一样了，从上图中我们可以看到服务器保持大量的close_wait只有一种情况，那就是对方发送一个FIN后，程序自己这边没有进一步发送ACK以确认。换句话说就是在对方关闭连接后，程序里没有检测到，或者程序里本身就已经忘了这个时候需要关闭连接，于是这个资源就一直被程序占用着。这个时候快速的解决方法是：

注：

直到写这篇文章的时候我才完全弄明白之前工作中遇到的一个问题。程序员写了爬虫(php)运行在采集服务器A上，程序去B服务器上采集资源，但是A服务器很快就发现出现了大量的close_wait状态的连接。后来手动检查才发现这些处于close_wait状态的请求结果都是404，那就说明B服务器上没有要请求的资源。

下面引用网友分析的结论：

服务器A是一台爬虫服务器，它使用简单的HttpClient去请求资源服务器B上面的apache获取文件资源，正常情况下，如果请求成功，那么在抓取完资源后，服务器A会主动发出关闭连接的请求，这个时候就是主动关闭连接，服务器A的连接状态我们可以看到是TIME_WAIT。如果一旦发生异常呢？假设请求的资源服务器B上并不存在，那么这个时候就会由服务器B发出关闭连接的请求，服务器A就是被动的关闭了连接，如果服务器A被动关闭连接之后程序员忘了让HttpClient释放连接，那就会造成CLOSE_WAIT的状态了。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/192745.html

爬虫一直在扫ftp服务器端口

发表评论

评论列表（0条）