SEO作弊站内操作手法
1、关键词堆砌 (keyword stuffing) 关键词堆砌一般是指在网站的某个页面,出现大量与网站内容相关性不高的关键词,这些关键词一般是重复出现多次。一般这种作法就是提高关键词密度,目前好像用的人很少,因为这个也是搜索引擎最反感的。
2、隐藏文本(Hidden Text) 一般常见的就是把一些关键词设置成与网站背景一样的颜色,从而达到让浏览用户看不到的效果。还有就是把字体放小,一般我们用眼睛根本没办法发现。这种作法一般蜘蛛是可以看到的,主要作法也是搞高关键词的密度但是又不影响用户体验。
3、隐藏页面(cloaked page) 有的网页使用程序或脚本来检测来访问的是搜索引擎还是普通用户。如果是搜索引擎,网页就返回经过优化的网页版本。如果来访的是普通人,返回的是另外一个版本。这种作弊方式,通常用户无法发现。因为一旦你的浏览器去看这个网页,无论是在页面上还是在HTML源文件中,你所得到的都已经是与搜索引擎看到的不同的版本。检测的方法是,看一下这个网页的快照。
4、隐藏的标签(Hidden Tags) 那些隐藏标签也有被过度使用的现象,比如comment tags, style tags等。把关键词放在这些标签里就是SEO作弊者的常见做法。
5、桥页(doorway pages) 通常是用软件自动生成大量包含关键词的网页,然后从这些网页做自动转向到主页。目 的是希望这些以不同关键词为目标的桥页在搜索引擎中得到好的排名。当用户点击搜索结果的时候,会自动转到主页。有的时候是在桥页上放上一个通往主页的链 接,而不自动转向。大部分情况下,这些桥页都是由软件生成的。你可以想象,生成的文字是杂乱无章,没有什么逻辑的。如果是由人写出来的真正包含关键词的文 章,就不是桥页了。
SEO作弊站外操作手法
1、群发。群发之前一直都是比较有用的SEO操作方法,通过群发软件大量群发带有网站链接的文本。一般这种方式在短时间之内可以大量提升网站的外链。
2、大量交换友情链接。友情链接是一种高质量的外链,有的朋友就通过这种方式大量搞高网站的链接。但是量过度了,也很容易引起搜索引擎的注意,如果性质严重的直接被K。
3、隐藏链接。这种方式也是我们常说的黑链,通过一些非法手段,获取一些高权重网站的FTP,然后把一些网站的链接,挂到程序代码中,一般不懂程序的是没办法发现的,必需去看网站和源码才能发现。
4、重定向Redirect Spam 通过重定向来欺骗搜索引擎,或者劫持流量,一般使用的方法是301,302以及402重定向,甚至是meta刷新和java script的重定向。
5、网页劫持(Page jacking) 网页劫持也就是我们经常所说的Page jacking,是将别人的网站内容或者整个网站全面复制下来,偷梁换柱放在自己的网站上。这个黑帽SEO方法是对网页内容极其匮乏的站长有吸引力的。但 是,这个做法是相当冒险的,更是不齿的。搜索引擎的专利技术能从多个因素上来判断这个被复制的网页或者网站不是原创,而不予以收录。
6、PR劫持 PR劫持,也就是用欺骗手段获得工具条上比较高的PR值显示。方法是利用跳转。一般搜索引擎在处理301和302转向的时候,都是把目标URL当作实际应该收录的URL。
7、购买的链接(link buying) 虽然在其他网站买广告是很正常的一件事,但有的时候如果所购买的广告链接纯粹是为了提高网页级别或为了 操纵搜索引擎排名的话,也会被当作作弊手段。在怎样区别正常广告和作弊手段之间有一个很模糊的界限。但是这样做的人自己心里很清楚。如果你的网站被认为是通过购买链接来作弊,也没办法去和搜索引擎去争辩。因为搜索引擎的决定就是最后的决定。
8、挂大量广告、插件 在网站页面中挂上大量恶意广告、恶意代码或有害插件的网站。
9、站群。建立大量的网站自己自己的主网站提供链接,一般这种方式操作隐藏不是很容易发现的,除非我们站群做得太小,目前百度是很难监控到的,也是现在最常见的一种作弊的操作手法。
网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer 、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatibleMSIE8.0Windows NT 5.1Trident/4.0AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa Toolbar)"
分析:
117.26.203.167:来访ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
500:服务器响应状态码
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证 明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重 定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967:表示抓取了19967个字节
Mozilla/4.0 (compatibleMSIE 8.0Windows NT 5.1Trident/4.0
AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa
Toolbar表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知,抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好,这里分享下如何分辨百度蜘蛛《如何分辨真假百度搜索引擎蜘蛛IP》。
有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)