蜘蛛陷阱的如何避免

蜘蛛陷阱的如何避免,第1张

1:采用session id的页面,有的销售类站点为了分析用户的某些信息会采用会话ID来跟踪用户,访问站点的时候每个用户访问都会增加一次session id而加入到URL中,同样蜘蛛的每一次访问也会被当做为一个新用户,每次蜘蛛来访问的URL中都会加入一个session id,这样就会产生了同一个页面但URL不同的情况,这种的一来会产生复制内容页面,造成了高度重复的内容页,同时也是最常见的蜘蛛陷阱之一。比如说有的网站的为了提高销售业绩,而进行弹窗会话等,比如说您好来自XXX地的朋友等。

2:常识性的蜘蛛陷阱,采用强制注册或登录才能访问的页面,这种的对于蜘蛛来说就相当为难了,因为蜘蛛无法提交注册,更无法输入用户名和密码登录查看内容,对于蜘蛛来说我们直接点击查看到的内容也是蜘蛛所能看到的内容。

3:喜欢采用flash的站点,之所以说是喜欢采用flash的站点是因为对于一些中小型企业来说,因为flash本身可以做很多种效果,尤其是放在导航上视觉效果强,所以不少企业站喜欢弄个flash来展示自己公司的实力,文化,产品等,甚至一些企业站点的网站首页就是一个flash,要么是在多长时间后通过flash跳转到另外一个页面,要么就是通过flash上的链接让用户自己点击后进入一个新的页面,但是对于蜘蛛来说一来是很难读取flash中的内容,所以蜘蛛也很难点击flash上的链接。

4:动态URL,在url中加入过多的符号或者网址参数等,这种蜘蛛陷阱我在url优化中曾经有提到,虽然说随着搜索引擎的的技术发展,动态url对于蜘蛛的抓取已经越来越不是问题了,但是从搜索引擎友好度上来讲,静态哪怕是伪静态url相对来说都比动态url要好,可以看下很多SEO同行对于url中的处理方式。

5:框架,在早期框架到处被泛滥使用,而现在框架网页很多网站已经很少使用了,一是因为现在随着各大CMS系统的开发问世,网站维护相对也越来越简单了,早期网站使用框架是因为对网站页面的维护有一定的便利性了,现在已经大可不必了,而且不利于搜索引擎收录也是框架越来越少被使用的原因之一。

6:JS,虽然现在搜索引擎对于javascript里的链接是可以跟踪甚至在尝试拆解分析的,但是我们最好不要寄望于搜索引擎自己克服困难,虽然说通过js可以做一些效果不错的导航,但是css同样可以做到;为了提高网站对搜索引擎的友好度建议使网页能够更好的蜘蛛爬行,就尽量不要采用js,当然在seo中,js有一个好处就是站长不希望被收录的页面或者友情链接可以采用js。还有一种方法可以消除JavaScript 蜘蛛程序陷阱,即使用<noscript>标签。<noscript>标签是为不支持JavaScript 的浏览器提供备选的代码。蜘蛛程序不会执行JavaScript, 因此他们通过处理<noscript>代码来代替。

7:深层次的网页,有的网页没有入口,而且距离网站的首页又很远,这种页面就相对较难被蜘蛛爬行到,当然对于那些权重高的网站可能会另当别论了。网站的页面要被收录,首先要需要基本的权重,首页的权重一般是最高的,然后首页的权重是可以传递到内页的,当内部页面的权重上升到可以被收录的门槛,页面就会被收录,按照这种理论,页面之间的权重传递是会递减的,因此,内页和首页的点击距离越近,越容易得到更多的首页权重传递。良好的网站结构可以让网站更多的页面被收录。

8:强制使用cookies,对于搜索引擎来说是相当于直接禁用了cookies的,而有些网站为了实现某些功能会采取强制cookies,比如说跟踪用户访问路径,记住用户信息,甚至是盗取用户隐私等,如果用户在访问这类站点时没有启用cookies,所显示的页面就会不正常,所以对于蜘蛛来讲同样的网页无法正常访问。

9:各种形式的跳转,对于301重定向相信很多seo童鞋已经非常熟悉了,但是对于其他302,或者meta refresh,javascript,flash等跳转,蜘蛛是很反感的,而且301也是不到万不得已的时候采用,任何跳转都会在一定程度上给蜘蛛的爬行带来障碍,所以你懂得。

10:robots.txt书写错误和各种各样的作弊手法,比如说隐藏文字,隐藏链接等,采用伪装网页在判断来访者是蜘蛛还是普通浏览器者而显示不同的网页,使用默认错误的404页面等,同样会给蜘蛛带来爬行障碍。

11:要求登录:有些网站内容放在需要用户登录之后才能看到的会员区域,这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码,也不会注册。

如何避免蜘蛛陷阱

“蜘蛛陷阱”是阻止蜘蛛程序爬行网站的障碍物,虽然网页界面看起来非常正常,但这些蜘蛛陷阱会对蜘蛛程序造成障碍。消除这些蜘蛛陷阱,可以使蜘蛛程序收录更多的网页。哪些做法不利于蜘蛛爬行和抓取呢?怎么去避免这些蜘蛛陷阱呢?下面跟我一起学习一下!

1、 登录要求

有些企业站和个人站设置一定要用户注册登录后,才能看到相关的文章内容,这种对蜘蛛不是很友好,因为蜘蛛无法提交注册,更无法输入用户名和密码登录查看内容。对于蜘蛛来说,用户直接点击查看到的内容也是蜘蛛所能看到的内容。如果你的网站有这种情况,请取消这一功能,但网站如果有VIP用户或部分资源,是可以这样设置的。

2、动态URL

动态URL可以简单理解为在URL中加入过多的符号或者网址参数,虽然随着搜索引擎的技术发展,动态URL对于蜘蛛的抓取已经越来越不是问题了,但是从搜索引擎友好度上讲,静态哪陷是伪静态相对来说都比动态URL要好。URL优化将在本章第6节中讨论。 /

3、强制用Cookies

强制用Cookies对于搜索引擎来说相当于直接禁用了Cookies,而有些网站为了实现某些功能。会采取强制Cookies,例如跟踪用户访问路径,记住用户信息,甚至是盗取用户隐私等,如果用户访问这类站点时没有启用Cookies,所显示的页面就会不正常。所以,对于蜘蛛来讲,同样的网页无法正常访问。

4、 框架结构

早期框架网页到处被泛滥使用,而现在很多网站已经很少使用了,一是因为现在随着各大CMS系统的开发问世,网站维护相对越来越简单了,早期网站使用框架是因为对网站页面的维护有一定的便利性,现在已经大可不必了,而且不利于搜索引擎收录也是框架越来越少被使用的原因之一。

5、各种跳转

对搜索引擎来说,只对301跳转相对来说比较友好,对其他形式的跳转都比较敏感。如JavaScritp跳转、MetaRefresh跳转、Flash跳转、302跳转。

有些网站的做法很让人无奈,当打开网页后,会自动转向其他页面,如果打开的页面和你要找的页面丰体相关.+扫.笪讨很去,佃是很大部分的网站转向让你无任何理由和目的,这种转向不推荐大家使用,如果非要做转向,只推荐用301永久跳转,可以将权重进行传递,除此转向其他都不推荐,因为很多其他转向欺骗用户和搜索引擎,也是黑帽的'一种手段,建议大家不要使用。

6、Flash

有的网站页面使用Flash视觉效果是很正常的,例如用Flash做的Logo、广告、图表等,这些对搜索引擎抓取和收录是没有问题的,但很多网站的首页是一个大的Flash文件,这种就叫蜘蛛陷阱。在蜘蛛抓取时,HTML代码中只是一个链接,并没有文字,虽然大的Flash效果看上去很好,外观看着也很漂亮,但可惜搜素引擎看不到,无法读取任何内容,所以,为了能体现网站优化的最好效果,不提倡这种Flash作为首页图片。

7、JavaScript跳转

虽然现在搜索引擎对于JavaScript里的链接可以跟踪,甚至尝试拆解分析,但是我们最好不要寄望于搜索引擎自己克服困难。虽然通过JavaScript可以做一些效果不错的导航,但是CSS同样也可以做到。为了提高网站对搜索引擎的友好度,使网页能够更好地蜘蛛爬行,尽量不要采用JavaScript当然,在SEO中,JavaScript有一个好处就是站长不希望被收录的页面或者友情链接可以采用JavaSc:npt。当然,有一种方法可以消除JavaScript蜘蛛程序陷阱,即使用

8、采用session id的页面

有的销售类站点为了分析用户的某些信息,会采用会话ID来跟踪用户。访问站点时,每个用户访问都会增加一次:?ssion id而加人到URL中。同样,蜘蛛的每一次访问也会被当作一个新用户。每次蜘蛛访问的URL中都会加入一个。Ession id,产生同一个页面但URL不同的情况,这种情况会产生复制内容页面,造成高度重复的内容页,同时也是最常见的蜘蛛陷阱之一。

第一:flash。

相信,这个许多网站都会有的。为了让用户体验更好,网站看起来更加的美观,放大量的flash动画。‘大量’,我这里说的是大量哦。大量的flash动画造成的后果只有一个,那便是搜索引擎蜘蛛是抓取到了你的网页,但是。在抓取后的预处理这一块,犯难了。因为提取不到一个中文文字。没有中文文字,搜索引擎蜘蛛怎么会知道抓到的网页的内容什么啊。特别是,用flash做成的导航,最危险了。

第二:Session ID

这个,少部分的网站可能会用。网站一旦使用了Session ID后,每一个访问者来到你这个网站中都会产生一个不同的ID号。搜索引擎蜘蛛也是如此。那么,一旦第一次搜索引擎蜘蛛来过,抓取过你网站的URL地址后。下一回它来,Session又会给蜘蛛一个不同的ID号,蜘蛛又会重复抓取一遍你的网站,但是URL不一样。这样造成的后果便是,搜索引擎蜘蛛会认为你这个网站中有大量重复的内容。会对你的网站越来越不感兴趣,最后都不来了。对于非要使用Session ID的网站,避免的方法是让程序员设计出来一套专门识别搜索引擎蜘蛛的代码。区别开是蜘蛛还是用户。

第三:各种跳转

搜索引擎蜘蛛对于各种跳转也是十分的敏感的。因为黑帽SEO最喜欢用跳转这种手段了。黑了别人的网站,然后在别人的网站上挂上一个指向自己网站的跳转。

第四:框架结构

第五:动态的URL地址

动态的URL地址一般过于长,带有较多的参数。好比“?”“=”“id”等,搜索引擎蜘蛛一旦爬行进入,很有可能会出不来。所以网站建议使用静态地址。

第六,必须登录了,才可以进入到网站中

有些网站为了采集用户信息,非要登录了才能进入到网站中。可是,搜索引擎蜘蛛不是人,它不会登录。它进入不了你的网站,那么你的收录便很有问题了。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/761153.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-18
下一篇2023-08-18

发表评论

登录后才能评论

评论列表(0条)

    保存