爬虫工作中，如何最大程度的避免被封IP_服务器知识

做爬虫，或者采集数据过程中，遇到最多的问题不是代码bug，而是封IP。开发好一个爬虫，部署好服务器，随后开始抓取信息，不一会儿，就提示封IP了，这时候的内心是崩溃的。

那么，有什么办法不封IP呢?首先，要了解为什么会封IP，这样才可以更好地避免封IP。有些网站反爬措施比较弱，伪装下IP就可以绕过了，大部分的网站的反爬措施都在不断加强，不断升级，这给预防封IP带来更大的困难。

有人说，使用代理IP就没事了了。诚然，使用大量的优质代理IP能够解决大部分的问题，但并非无忧无虑。我们知道，网站的反爬虫策略主要是反那些比较猖狂的爬虫，不可能反那些正常的用户。那么什么样的用户是正常的用户呢，如果将爬虫伪装成正常的用户呢，是不是就不会被封了。

首先，正常的用户访问网站频率不会太快，毕竟手速是有限，眼速也是有限的，爬虫要伪装成用户，那么抓取的频率就不能反人类，但这样一来，效率就大大降低了，怎么办?能够使用多线程来解决。

其次，一些网站往往需要验证码来验证，对于正常使用的用户来说，基本都没问题，但对于爬虫来说，就需要一套较为厉害的验证码识别程序来识别了，像12306这样的验证码就较为难搞定了。随后，就是一些其他的细节了，比如，UserAgent经常换一换，cookie要清一清，访问的顺序最好不要有规律，爬取每个页面的时间没有规律等等。反爬虫策略不断升级，相应的爬虫策略也要不断升级，不然有一天，你会发现，哪怕您使用了大量的代理IP，依然预防不了大面积的封IP，爬虫工作受阻

找代理解决问题。出现这个现象的原因是因为网站采取了一些反爬中措施，如：服务器检测IP在单位时间内请求次数超过某个阀值导致，称为封IP。为了解决此类问题，代理就派上了用场，如：代理软件、付费代理、ADSL拨号代理，以帮助爬虫脱离封IP的苦海。

使用爬虫时ip限制问题的六种方法。

方法1

1、IP必须需要，如果有条件，建议一定要使用代理IP。　

2、在有外网IP的机器上，部署爬虫代理服务器。

3、你的程序，使用轮训替换代理服务器来访问想要采集的网站。

好处：

1、程序逻辑变化小，只需要代理功能。

2、根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。

3、就算具体IP被屏蔽了，你可以直接把代理服务器下线就OK，程序逻辑不需要变化。

方法2

1、ADSL+脚本，监测是否被封，然后不断切换ip。

2、设置查询频率限制正统的做法是调用该网站提供的服务接口。

方法3

1、useragent伪装和轮换。

2、使用雷电ip代理。

3、cookies的处理，有的网站对登陆用户政策宽松些。

方法4

尽可能的模拟用户行为：

1、UserAgent经常换一换。

2、访问时间间隔设长一点，访问时间设置为随机数。　

3、访问页面的顺序也可以随机着来。

方法5

网站封的依据一般是单位时间内特定IP的访问次数。将采集的任务按目标站点的IP进行分组通过控制每个IP在单位时间内发出任务的个数,来避免被封。当然,这个前题采集很多网站。如果只是采集一个网站,那么只能通过多外部IP的方式来实现了。

方法6

对爬虫抓取进行压力控制；可以考虑使用代理的方式访问目标站点。　

1、降低抓取频率，时间设置长一些，访问时间采用随机数。

2、频繁切换UserAgent（模拟浏览器访问）。

3、多页面数据，随机访问然后抓取数据。

4、更换用户IP，这是最直接有效的方法。

用芝麻VPS吧，不用自己搭建ip代理池，自动切换ip，超大空间可以搭建存储模块。独立空间，不占用服务器，所以如果刚起步做爬虫的话，而且并没有较为空旷的空间和宽裕的资金，这个还是不错的。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/499424.html

爬虫工作中，如何最大程度的避免被封IP

发表评论

评论列表（0条）