SEO细节robots该屏蔽哪些文件

SEO细节robots该屏蔽哪些文件,第1张

要根据你的网站源代码来确定,屏蔽哪些文件。以dz为例。我的网站是用dz建的。

这个是我的robots.txt设置。更具体的,你直接点击,网址,看。谢谢。

User-agent:

*

Disallow:

/api/

Disallow:

/data/

Disallow:

/source/

Disallow:

/install/

Disallow:

/template/

Disallow:

/config/

Disallow:

/uc_client/

Disallow:

/uc_server/

Disallow:

/static/

Disallow:

/admin.php

Disallow:

/search.php

Disallow:

/member.php

Disallow:

/api.php

Disallow:

/misc.php

Disallow:

/connect.php

Disallow:

/forum.php?mod=redirect*

Disallow:

/forum.php?mod=post*

Disallow:

/home.php?mod=spacecp*

Disallow:

/userapp.php?mod=app&*

Disallow:

/*?mod=misc*

Disallow:

/*?mod=attachment*

Disallow:

/*mobile=yes*

Disallow:

/*home.php*

网页链接

如果您不想让 Google 或其他搜索引擎访问您网站中的某些内容,请用 robots.txt 文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress博主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。

最简单的robots.txt规则:

User-agent: *Disallow:

这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。

安全性的robots.txt书写规则:

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /?s=

有利于seo的robots.txt书写规则:(以本站为例)

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */rss.xmlDisallow: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /*?*Disallow: /?s=Sitemap: http://www.pakelab.com/sitemap.xml

先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是http://www.pakelab.com/xxxx/rss.xml的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */rss.xml ,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。

再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。

feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。

wordpress官方robots.txt书写规则(国外)

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: /author/*

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Allow: /wp-content/uploads

# Google Image

User-agent: Googlebot-Image

Disallow:

Allow: /*

# Google AdSense

User-agent: Mediapartners-Google*

Disallow:

Allow: /*

# digg mirror

User-agent: duggmirror

Disallow: /

Sitemap: http://www.example.com/sitemap.xml

对于自己网站情况还不太清楚的博主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex

在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/702374.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-04
下一篇2023-08-04

发表评论

登录后才能评论

评论列表(0条)

    保存