禁止百度抓取的指定的几个动态页面。怎么设置？_服务器知识

禁止

Baiduspider

访问我们的网站:

User-agent

: Baiduspider Disallow: /

禁止百度访问特定目录：User-agent: *Disallow: /目录URL/

禁止访问网站中所有的

动态页面

：User-agent: *Disallow: /*?*

如果不希望百度或 Google抓取网站内容，就需要在服务器的根目录中放入一个 robots.txt 文件，其内容如下：

User-Agent: *

Disallow: /

这是大部份网络漫游器都会遵守的标准协议，加入这些协议后，它们将不会再漫游您的网络服务器或目录。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况，可以使用百度站长工具进行查询。http://zhanzhang.baidu.com/robots/index

网站robots.txt设置好即可

怎么写Robots.txt文件？

遵循语法的Robots.txt才可能被机器人识别，至于语法，介绍起来很繁琐，现简单举例如下：

1）禁止所有搜索引擎访问网站的任何部分（也就是网站彻底的拒绝所有搜索引擎收录）

User-agent: *

Disallow: /

2）允许所有的robot访问（也就是网站允许所有搜索引擎收录）

User-agent: *

Disallow:

3）禁止某个搜索引擎的访问（比如禁止百度收录，按如下的方式写）

User-agent: baiduspider

Disallow: /

4）允许某个搜索引擎的访问（比如允许百度收录，按如下的方式写）

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

5）禁止搜索引擎访问某些目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /images/

使用方法：很简单，将代码存为一个文本文件，命名为Robots.txt ，放在网页根目录即可。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/209688.html

禁止百度抓取的指定的几个动态页面。怎么设置？

发表评论

评论列表（0条）