如何用MYIIS-VIF限制和防采集功能
可以确定的是,这可以让你的站点减少负担。对服务器做一些限制有时候也是必须的,资源的被占用,被滥用,你都无法控制。所以,得有这样的举措来控制。
在WEB上面,MYIIS-VIF可以做到很多限制来防止采集。特别是有些文章站点,除开可以被蜘蛛采集以外(数据通道)。让我们看看,我们可以限制些什么?
点击“限制与防采集”—>”添加”功能:
1. 禁止使用网络蚂蚁:
现在网络蚂蚁用的真的少了。这个产品其实很不错的。当时用的时候还没有迅雷。
2.禁止使用一切下载工具:
好的,这下就用IE或者浏览器下载吧。
3.禁止使用多线程下载同时禁止断点续传:
插件也别想多线下载了,全世界安静了。这保证了你的原始服务器始终是小流量的,让那些大公司的分流服务器为你工作吧。
4.限制火车头采集和全部.net程序采集:
火车头是个很不错的采集工具,很多采集者都喜欢用它,但它毕竟耗费对方服务器资源。还是向上面那样,让全世界清静点吧。
5.防止flash程序被采集,保护swf文件:
有些站点上大多数是以swf为主的。swf被采集,肯定耗费服务器资源。防止被采集,还是有这个需求的。
以上5点,可以被绕过,但需要点时间去折腾,欢迎广大黑帽子来绕,白帽子来讨论。
高级设置:
这个有点意思,您可以根据抓包的结果,将一些特殊的头放到这里来,如果发现cookies里有特殊的东西,或者提交上来的头有特殊的字符就可以屏蔽。我们以前用这个办法成功屏蔽了一种特殊的CC攻击,估计大部分防火墙(包括CDN防火墙)还不知道吧。聪明的你,如果可以经常抓包,你肯定会有所发现的。来吧,加入MYIIS-VIF的世界,少年。
下面,那个框框的勾选更厉害了。如果有违反这个规则的,将直接一次性锁定ip地址。如果启动ip锁定,在驱动拦截里。还记得我们之前的教程里有提到的。VIF很简单,你一看就会。
一、采集器的制作的基本知识点。
1、懂一些简单的正则表达式的知识,知道些基本知识对大家在采集软件设置规则的时候是有帮助,正则表达式的一些基础知识是很容易掌握的,而绝大多数采集用的是最基本的正则表达式的内容。
如:起码要知道"." “\n” “\s” "\d" "*" "+" "?" "{3,5}" "[3-6]"。 了解这些简单正则式的基本含义,这里不作详细详解,大家可以从网上查到资料。我个人觉得正则还是比较容易学习,但是不经常使用的话,忘记的比较快。经常会出现边在网上查正则,边书写采集规则的情况。
2、会使用一些程序命令将网页的内容正确抓取下来。
二、对小说站进行采集的思路。
就看一下如何采集世纪,只要知道一个书本的ID号就可以开始了。通过前面的采集代码,一层一层的从网页上抓取数据,然后根据你设置的正则表达式标签,把所需要的内容取出来,判断是文字内容,还是图片内容,然后分别写入后端数据库。
如果是批量采集就按照设置的ID号不断循环,直到全部采集完。如果你设置从1-50000号开始采集,就基本可以目标书站的书全部采集完。
就算目标站中有空号,比如说:4678这个号没有书,这样大抓取这个号的时候会出现错误,通过正则采集判断是空号就放弃采集这个ID号就成啦。
手上的蓝心采集已经实现了三种批采模式。
防采集的基本思路
目前而言,防采集还没有一个还没有一个完全彻底的解决方案。
1、增加采集的规则难度,经常变换规则,这种方法对于防止采集是比较容易使用的方法,而且效果比较好,容易。
2、可以设置IIS和apache对图片的采集进行限制。
IIS通过重写一些附加模块可以实现,但是直接在IIS里通过设置来实现方法比较困难,需要附加模块来做这个事。
Apache可以实现图片简单防采和防盗链,设置比较简单,而且很实用。
只要你提供网页服务就没有办法,因为网页总归是要给别人看的,给别人看,里面的数据就会被别人获取。要防止搜索引擎的爬虫,可以在站点根目录下放置robots.txt文件,文件内容请自行百度robots协议。当然robots协议是君子协定,是否遵守只能靠搜索引擎自觉。欢迎分享,转载请注明来源:夏雨云
评论列表(0条)