这个是我的robots.txt设置。更具体的,你直接点击,网址,看。谢谢。
User-agent:
*
Disallow:
/api/
Disallow:
/data/
Disallow:
/source/
Disallow:
/install/
Disallow:
/template/
Disallow:
/config/
Disallow:
/uc_client/
Disallow:
/uc_server/
Disallow:
/static/
Disallow:
/admin.php
Disallow:
/search.php
Disallow:
/member.php
Disallow:
/api.php
Disallow:
/misc.php
Disallow:
/connect.php
Disallow:
/forum.php?mod=redirect*
Disallow:
/forum.php?mod=post*
Disallow:
/home.php?mod=spacecp*
Disallow:
/userapp.php?mod=app&*
Disallow:
/*?mod=misc*
Disallow:
/*?mod=attachment*
Disallow:
/*mobile=yes*
Disallow:
/*home.php*
网页链接
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址都不抓取,肯定是不会被采集存进百度数据库的
找到网站死链后,到百度站长平台提交死链,等待百度删除即可。robots.txt文件用法举例:
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)