如何使用MYIIS-VIF来限制和防采集功能 让你的站点少点负担

如何使用MYIIS-VIF来限制和防采集功能 让你的站点少点负担,第1张

如何用MYIIS-VIF限制和防采集功能

可以确定的是,这可以让你的站点减少负担。对服务器做一些限制有时候也是必须的,资源的被占用,被滥用,你都无法控制。所以,得有这样的举措来控制。

在WEB上面,MYIIS-VIF可以做到很多限制来防止采集。特别是有些文章站点,除开可以被蜘蛛采集以外(数据通道)。让我们看看,我们可以限制些什么?

点击“限制与防采集”—>”添加”功能:

1. 禁止使用网络蚂蚁:

现在网络蚂蚁用的真的少了。这个产品其实很不错的。当时用的时候还没有迅雷。

2.禁止使用一切下载工具:

好的,这下就用IE或者浏览器下载吧。

3.禁止使用多线程下载同时禁止断点续传:

插件也别想多线下载了,全世界安静了。这保证了你的原始服务器始终是小流量的,让那些大公司的分流服务器为你工作吧。

4.限制火车头采集和全部.net程序采集:

火车头是个很不错的采集工具,很多采集者都喜欢用它,但它毕竟耗费对方服务器资源。还是向上面那样,让全世界清静点吧。

5.防止flash程序被采集,保护swf文件:

有些站点上大多数是以swf为主的。swf被采集,肯定耗费服务器资源。防止被采集,还是有这个需求的。

以上5点,可以被绕过,但需要点时间去折腾,欢迎广大黑帽子来绕,白帽子来讨论。

高级设置:

这个有点意思,您可以根据抓包的结果,将一些特殊的头放到这里来,如果发现cookies里有特殊的东西,或者提交上来的头有特殊的字符就可以屏蔽。我们以前用这个办法成功屏蔽了一种特殊的CC攻击,估计大部分防火墙(包括CDN防火墙)还不知道吧。聪明的你,如果可以经常抓包,你肯定会有所发现的。来吧,加入MYIIS-VIF的世界,少年。

下面,那个框框的勾选更厉害了。如果有违反这个规则的,将直接一次性锁定ip地址。如果启动ip锁定,在驱动拦截里。还记得我们之前的教程里有提到的。VIF很简单,你一看就会。

一、采集器的制作的基本知识点。

1、懂一些简单的正则表达式的知识,知道些基本知识对大家在采集软件设置规则的时候是有帮助,正则表达式的一些基础知识是很容易掌握的,而绝大多数采集用的是最基本的正则表达式的内容

如:起码要知道"." “\n” “\s” "\d" "*" "+" "?" "{3,5}" "[3-6]"。 了解这些简单正则式的基本含义,这里不作详细详解,大家可以从网上查到资料。我个人觉得正则还是比较容易学习,但是不经常使用的话,忘记的比较快。经常会出现边在网上查正则,边书写采集规则的情况。

2、会使用一些程序命令将网页的内容正确抓取下来。

二、对小说站进行采集的思路

就看一下如何采集世纪,只要知道一个书本的ID号就可以开始了。通过前面的采集代码,一层一层的从网页上抓取数据,然后根据你设置的正则表达式标签,把所需要的内容取出来,判断是文字内容,还是图片内容,然后分别写入后端数据库。

如果是批量采集就按照设置的ID号不断循环,直到全部采集完。如果你设置从1-50000号开始采集,就基本可以目标书站的书全部采集完。

就算目标站中有空号,比如说:4678这个号没有书,这样大抓取这个号的时候会出现错误,通过正则采集判断是空号就放弃采集这个ID号就成啦。

手上的蓝心采集已经实现了三种批采模式。

防采集的基本思路

目前而言,防采集还没有一个还没有一个完全彻底的解决方案。

1、增加采集的规则难度,经常变换规则,这种方法对于防止采集是比较容易使用的方法,而且效果比较好,容易。

2、可以设置IIS和apache对图片的采集进行限制。

IIS通过重写一些附加模块可以实现,但是直接在IIS里通过设置来实现方法比较困难,需要附加模块来做这个事。

Apache可以实现图片简单防采和防盗链,设置比较简单,而且很实用。

只要你提供网页服务就没有办法,因为网页总归是要给别人看的,给别人看,里面的数据就会被别人获取。要防止搜索引擎的爬虫,可以在站点根目录下放置robots.txt文件,文件内容请自行百度robots协议。当然robots协议是君子协定,是否遵守只能靠搜索引擎自觉。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/152266.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-21
下一篇2023-03-21

发表评论

登录后才能评论

评论列表(0条)

    保存