如何使用MYIIS-VIF来限制和防采集功能让你的站点少点负担_服务器知识

如何用MYIIS-VIF限制和防采集功能

可以确定的是，这可以让你的站点减少负担。对服务器做一些限制有时候也是必须的，资源的被占用，被滥用，你都无法控制。所以，得有这样的举措来控制。

在WEB上面，MYIIS-VIF可以做到很多限制来防止采集。特别是有些文章站点，除开可以被蜘蛛采集以外（数据通道）。让我们看看，我们可以限制些什么？

点击“限制与防采集”—>”添加”功能：

1. 禁止使用网络蚂蚁：

现在网络蚂蚁用的真的少了。这个产品其实很不错的。当时用的时候还没有迅雷。

2.禁止使用一切下载工具：

好的，这下就用IE或者浏览器下载吧。

3.禁止使用多线程下载同时禁止断点续传：

插件也别想多线下载了，全世界安静了。这保证了你的原始服务器始终是小流量的，让那些大公司的分流服务器为你工作吧。

4.限制火车头采集和全部.net程序采集：

火车头是个很不错的采集工具，很多采集者都喜欢用它，但它毕竟耗费对方服务器资源。还是向上面那样，让全世界清静点吧。

5.防止flash程序被采集，保护swf文件：

有些站点上大多数是以swf为主的。swf被采集，肯定耗费服务器资源。防止被采集，还是有这个需求的。

以上5点，可以被绕过，但需要点时间去折腾，欢迎广大黑帽子来绕，白帽子来讨论。

高级设置：

这个有点意思，您可以根据抓包的结果，将一些特殊的头放到这里来，如果发现cookies里有特殊的东西，或者提交上来的头有特殊的字符就可以屏蔽。我们以前用这个办法成功屏蔽了一种特殊的CC攻击，估计大部分防火墙（包括CDN防火墙）还不知道吧。聪明的你，如果可以经常抓包，你肯定会有所发现的。来吧，加入MYIIS-VIF的世界，少年。

下面，那个框框的勾选更厉害了。如果有违反这个规则的，将直接一次性锁定ip地址。如果启动ip锁定，在驱动拦截里。还记得我们之前的教程里有提到的。VIF很简单，你一看就会。

一、采集器的制作的基本知识点。

1、懂一些简单的正则表达式的知识，知道些基本知识对大家在采集软件设置规则的时候是有帮助，正则表达式的一些基础知识是很容易掌握的，而绝大多数采集用的是最基本的正则表达式的内容。

如：起码要知道"." “\n” “\s”　"\d" "*" "+" "?" "{3,5}" "[3-6]"。了解这些简单正则式的基本含义，这里不作详细详解，大家可以从网上查到资料。我个人觉得正则还是比较容易学习，但是不经常使用的话，忘记的比较快。经常会出现边在网上查正则，边书写采集规则的情况。

2、会使用一些程序命令将网页的内容正确抓取下来。

二、对小说站进行采集的思路。

就看一下如何采集世纪，只要知道一个书本的ID号就可以开始了。通过前面的采集代码，一层一层的从网页上抓取数据，然后根据你设置的正则表达式标签，把所需要的内容取出来，判断是文字内容，还是图片内容，然后分别写入后端数据库。

如果是批量采集就按照设置的ID号不断循环，直到全部采集完。如果你设置从1－50000号开始采集，就基本可以目标书站的书全部采集完。

就算目标站中有空号，比如说：4678这个号没有书，这样大抓取这个号的时候会出现错误，通过正则采集判断是空号就放弃采集这个ID号就成啦。

手上的蓝心采集已经实现了三种批采模式。

防采集的基本思路

目前而言，防采集还没有一个还没有一个完全彻底的解决方案。

1、增加采集的规则难度，经常变换规则，这种方法对于防止采集是比较容易使用的方法，而且效果比较好，容易。

2、可以设置IIS和apache对图片的采集进行限制。

IIS通过重写一些附加模块可以实现，但是直接在IIS里通过设置来实现方法比较困难，需要附加模块来做这个事。

Apache可以实现图片简单防采和防盗链，设置比较简单，而且很实用。

只要你提供网页服务就没有办法，因为网页总归是要给别人看的，给别人看，里面的数据就会被别人获取。要防止搜索引擎的爬虫，可以在站点根目录下放置robots.txt文件，文件内容请自行百度robots协议。当然robots协议是君子协定，是否遵守只能靠搜索引擎自觉。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/152266.html

如何使用MYIIS-VIF来限制和防采集功能让你的站点少点负担

发表评论

评论列表（0条）

如何使用MYIIS-VIF来限制和防采集功能 让你的站点少点负担

发表评论

评论列表（0条）

如何使用MYIIS-VIF来限制和防采集功能让你的站点少点负担