SEO搜索引擎正排索引和倒排索引的区别

SEO搜索引擎正排索引和倒排索引的区别,第1张

正排索引:一个文件(网站/网页)对应许多关键词

倒排索引:一个关键词对应许多文件(网站/网页)

我们搜索关键词之后的结果就是倒排索引的体现,你搜一个关键词,出现很多文件可选择浏览

SEO即Search Engine

Optimization,中文译名“搜索引擎优化”,通过对网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中关键词排名提

高,从而把精准用户带到网站,获得免费流量,产生直接销售或品牌推广。(通俗来讲:SEO即百度自然排名,一般所说的搜索引擎指综合搜索,除此外还有垂直

搜索和站内搜索。)

搜索引擎的基本原理

爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤

预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同

一内容不同网站或同一网站不同网址)倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法

排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。

更多可以参阅百度站长平台发布的《百度搜索引擎工作原理》

http://zhanzhang.baidu.com/college/courseinfo?id=144

竞争研究

关键词分析

关键词原则:关键词决定了栏目内容规划、链接结构等重要后续步骤,需要注意主题内容相关,不同词商业价值,主关键词不可太宽泛,确保目标关键词有人搜索,降低优化难度,寻找有效流量(地区与业务与公司贴合),善用工具。

竞争程度:搜索结果数、竞价结果数、内页排名数、大型著名门户数(站长之家工具)

竞争对手分析:百度权重(第三方)/搜狗评级<谷歌pr2014年停更>、alexa预估流量/爱占、站长之家预估百度流量、网站年龄(域名年龄)、收录、外链、社交网络曝光

建立关键词库:按首页、频道、栏目划分,长尾扩展规则举例

关键词分组:行业细分、地区分类、部位分类等

关键词分类:信息类:小米手机怎么样,导航类:小米手机官网(品牌),交易类:小米手机价格。

关键词波动预测:行业趋势、季节特性、社会热点(百度风云榜、最新网络事件热词)

关键词布局

首页(行业词、品牌词)-频道(大分类词)-栏目(主词、栏目名分类词)专题/标签(热门内容知识点集合)-文章(文章长尾)<商城:产品描述等同文章>

关键词挖掘途径

爱站/站长之家长尾词挖掘工具。此工具挖掘出的长尾词按照百度指数排列,没有百度指数的不会出现,故而是最重要的长尾词工具。

百度搜索框下拉词和百度相关词。百度相关词和百度提示框下拉词是搜索量很大的,除了有部分是同行刷出来词,因此此类词也是非常重要的长尾。

百度知道平台。百度知道作为最大的中文问答平台,积聚了无数网友的提问,虽然其中不乏互刷关键词的,但算是不错的参考,输入主词,出现的有针对性的都可算作长尾词。

百度搜索风云榜。百度、谷歌、搜狗等热门搜索词、事件。

头脑风暴。自己是人,能想到的长尾词,自然也有人会想到会搜索。

同行网站。别人有所研究的就用价值,没研究乱搞的也不会有什么价值,注意识别。

网站诊断

百度/好搜/搜狗/神马站长平台、robots文件、首选域(是否带www,其他不解析或者301)、外部链接(百度已经下架外链工具,谷歌和百度都在打击垃圾外链,内容为主,外链顺其自然,回到推广引流的正确位置,禁大量垃圾无意义外链)。

内链、抓取错误统计(服务器、tttp、抓取异常等)、百度模拟抓取是否正常、移动友好检测、网址是否唯一(301或者robots)。

网站结构优化

目前搜索引擎只能抓取文字,图片、视频无法识别只有通过便签说明。

蜘蛛陷阱:flash、session id(跟踪用户访问生成网址参数)、框架架构(Frame)、动态url(数据库生成带有?=及参数的网址,目前抓取来说没有问题,过多参数还是不利于搜索引擎,建议生成静态,伪静态注意url唯一)、js、强制使用cookie。

导航清晰:树状结构,主次栏目导航、面包屑导航(当前位置)、避免页脚堆积栏目。

网站权重布局:首页>频道>栏目>文章页子域名>目录。

禁止抓取:nofollow:不跟踪链接,不传递权重和锚文本robots:禁止抓取网站内容,如淘宝网全站禁止,一般禁止抓取后台及数据库信

息,可以屏蔽目录来解决重复收录的问题(如:http://www.baidu.com/robots.txt),Canonical:地址规范标签。

动态url:数据库生成带有问好、等号及参数,容易让搜索引擎限于死循环,现在抓取没有问题,容易造成重复,所以建议Url静态化、伪静态(url重写)。

Url规范:越短越好、注意目录层次。

网站地图:用户看的文字栏目地图和给搜索引擎的链接xml地图。

尽可能多的曝光内链促进收录和内部投票(织梦做到了极致:头条、推荐、幻灯、特荐、相关、排行、最新等)。

页面优化

1、title

不同网页标题不一致,网页相关,字数限制(30个中文字符),尽量不要堆砌,关键词出现最前面,吸引点击,一个页面关键词控制在3个内,标题不要写没意义的词句,关键词之间的连接符:_、-、〉、|。

2、description

现主流搜索算法不采用,搜索结果采用,影响点击,如果与不包含搜索词则提取内文或随机。77字符,首页、栏目、自己写,内容也提取摘要便签,或者正文前几十个字符,或者留空。

3、keywords

现主流搜索算法不采用,内容页调用tag标签或留空。

4、正文

词频与密度,以前说密度在2%-8%之间,现在的重要性降低,内容页长尾关键词2次左右,正文第一段、中间、结尾穿插,首页、栏目主词无定数,自然恰当,合适融入,切莫堆砌。

网页内标签:H(H1-H6,标题)、黑体(内容重点)、alt(图片说明)

关键词的变形多次、组合、拆分,有助于提取页面主题

语义相关:算法通过词与词之间是否经常出现在同一网页分析他们之间的联系,如优化“奥巴马”,多出现白宫、美国等能帮助搜索引擎页面真正意思。

用户体验:段落清晰,主次分明,重点加黑,第一屏是否有实质内容、广告是否影响浏览。

5、精简代码

css的冗余、css/js外部调用、减少删除注释,控制页面大小(128kb,过大影响打开速度和抓取)

6、内部链接合理,过大总体排名降低

7、外部链接相关性帮助与提升自身页面相关性。

8、保持合理的页面更新频率及数量

9、社会化分享:如百度分享、评论可能会作为页面受欢迎参考值。

Google沙盒期:新站或长期不更新网站突然大量更新增加大量外链等不正常现象的排名呢后移,Google会有6个月左右,百度新站很注重网站内容质量。

10、文章优化注意点(呓城经验总结)

标题:具有用户搜索属性,多有疑问词,比如是什么、怎么办等,可以用复合标题

摘要:摘要言简意赅,能概况文章内容,或起到引导作用,包含关键词

结构:排版工具格式化,段落清晰格式化编辑,分段小标题、关键词加粗可以用1234、一二三四目录格式,添加图片,这两种对用户体验和当前搜索引擎结果页展示都很良好

内容:不要完全照抄,多篇文章整合,加上自己描述,删繁就简,注重内容对用户的价值,谨慎做标题党文无题意,或者文章内容过多没有重点标识用户难以找到想知道的内容等损害用户体验的事情

外部链接建设(百度官方意见)

百度多次打击外链,并且已经下架外链工具,SEO已经从以前单纯发外链就可以得到排名,到现在极度注重内容的阶段,这是好事,我表达下我的观点,我

认为外链工作应该从SEO中剔除,我承认高权相关的外链人仍有排名助力,但不要刻意,低质垃圾外链有害无用,还有一点,做长尾不要发外链,不然很容易抢占

自身的排名,恢复起来时间很漫长,总得来说就是,做SEO不要再发外链了,注重关键词内容质量优化,外链应该回到推广引流的正确位置,而非继续浪费时间制

造互联网垃圾,友情链接对SEO依然很重要。

SEO系统涉及的内容非常多,详细内容可以参阅百度站长平台发布的《百度搜索引擎优化指南2.0》http://zhanzhang.baidu.com/college/documentinfo?id=193


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/782761.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-23
下一篇2023-08-23

发表评论

登录后才能评论

评论列表(0条)

    保存