倒排索引:一个关键词对应许多文件(网站/网页)
我们搜索关键词之后的结果就是倒排索引的体现,你搜一个关键词,出现很多文件可选择浏览
SEO又叫搜索引擎优化
定义:简单的说就是通过一系列对搜索引擎友好的方法,提高网站在搜索引擎中的自然排名,获取更多的浏览量和转化机会。
如何在搜索引擎自然搜索页面获取好的排名?
搜索引擎是怎么工作的:
1:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
2:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不在爬行。
3:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
1、提取文字
2、中文分词
3、去停词
4、消除噪音
5、去重
6、正向索引
7、倒排索引
8、链接关系计算
9、特殊文件处理
4:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。
从搜索引擎的工作原理,我们可以知道网站被爬行和收录的页面越多,网站就有更多的排名机会。能否有好的排名还要看网站的权重,权重越高排名能力越强。
影响网页排名的因素有:
1.网站结构
网站应该有清晰的结构和明晰的导航,这能帮助用户快速从你的网站中找到自己需要的内容,也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。
网站结构建议采用树型结构,树型结构通常分为以下三个层次:首页——频道——文章页。象一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。树型结构的扩展性更强,网站内容变多时,可以通过细分树枝(频道)来轻松应对。
理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。
同时,网站也应该是一个网状结构,网站上每个网页都应该有指向上、下级网页以及相关内容的链接:首页有到频道页的链接,频道页有到首页和普通内容页的链接、普通内容页有到上级频道以及首页的链接、内容相关的网页间互相有链接。网站中每一个网页,都应该是网站结构的一部分,都应该能通过其他网页链接到。
2.关键词
网站关键词的布局应该成金字塔式分布,有利于搜索引擎识别各个网页的内容,如果大量网页使用重复关键词就会导致权重分配不均,不利于页面的排名。
塔尖:网站的2、3个核心关键词应该放在首页,也就是塔尖部分。
塔身:网站的一级分类应该有10多个,每个分类可以放在2、3个意思相近的词;一些中型大型网站有二级甚至更多分类,这些分类的的首页可以放再次一级的关键词。这些一级和二级分类页面的关键词组成塔身部分。
塔底:更多的长尾关键词可以放在文章、帖子、产品等详细页,组成金字塔的底部。
3.网站内容
网页的title用于告诉用户和搜索引擎这个网页的主要内容是什么,搜索引擎在判断一个网页内容权重时,title是主要参考信息之一。网页title是网页上主要内容的概括,搜索引擎可以通过网页标题迅速的判断网页的主题。每个网页的内容都是不同的,每个网页都应该有独一无二的title。
4.外链
影响网站关键词在搜索引擎中排名的因素有很多,归纳起来有上百个因素,如果要在其中选择最重要的因素,高质量的外链肯定会是很多人的选择,虽然每个优化人员的优化方法都不一样,但在这点上的认识,都不尽相同,这尤其体现了,外链在seo优化中的地位。
SEO即Search Engine
Optimization,中文译名“搜索引擎优化”,通过对网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中关键词排名提
高,从而把精准用户带到网站,获得免费流量,产生直接销售或品牌推广。(通俗来讲:SEO即百度自然排名,一般所说的搜索引擎指综合搜索,除此外还有垂直
搜索和站内搜索。)
搜索引擎的基本原理
爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤
预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同
一内容不同网站或同一网站不同网址)倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法
排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。
更多可以参阅百度站长平台发布的《百度搜索引擎工作原理》
http://zhanzhang.baidu.com/college/courseinfo?id=144
竞争研究
关键词分析
关键词原则:关键词决定了栏目内容规划、链接结构等重要后续步骤,需要注意主题内容相关,不同词商业价值,主关键词不可太宽泛,确保目标关键词有人搜索,降低优化难度,寻找有效流量(地区与业务与公司贴合),善用工具。
竞争程度:搜索结果数、竞价结果数、内页排名数、大型著名门户数(站长之家工具)
竞争对手分析:百度权重(第三方)/搜狗评级<谷歌pr2014年停更>、alexa预估流量/爱占、站长之家预估百度流量、网站年龄(域名年龄)、收录、外链、社交网络曝光
建立关键词库:按首页、频道、栏目划分,长尾扩展规则举例
关键词分组:行业细分、地区分类、部位分类等
关键词分类:信息类:小米手机怎么样,导航类:小米手机官网(品牌),交易类:小米手机价格。
关键词波动预测:行业趋势、季节特性、社会热点(百度风云榜、最新网络事件热词)
关键词布局
首页(行业词、品牌词)-频道(大分类词)-栏目(主词、栏目名分类词)专题/标签(热门内容知识点集合)-文章(文章长尾)<商城:产品描述等同文章>
关键词挖掘途径
爱站/站长之家长尾词挖掘工具。此工具挖掘出的长尾词按照百度指数排列,没有百度指数的不会出现,故而是最重要的长尾词工具。
百度搜索框下拉词和百度相关词。百度相关词和百度提示框下拉词是搜索量很大的,除了有部分是同行刷出来词,因此此类词也是非常重要的长尾。
百度知道平台。百度知道作为最大的中文问答平台,积聚了无数网友的提问,虽然其中不乏互刷关键词的,但算是不错的参考,输入主词,出现的有针对性的都可算作长尾词。
百度搜索风云榜。百度、谷歌、搜狗等热门搜索词、事件。
头脑风暴。自己是人,能想到的长尾词,自然也有人会想到会搜索。
同行网站。别人有所研究的就用价值,没研究乱搞的也不会有什么价值,注意识别。
网站诊断
百度/好搜/搜狗/神马站长平台、robots文件、首选域(是否带www,其他不解析或者301)、外部链接(百度已经下架外链工具,谷歌和百度都在打击垃圾外链,内容为主,外链顺其自然,回到推广引流的正确位置,禁大量垃圾无意义外链)。
内链、抓取错误统计(服务器、tttp、抓取异常等)、百度模拟抓取是否正常、移动友好检测、网址是否唯一(301或者robots)。
网站结构优化
目前搜索引擎只能抓取文字,图片、视频无法识别只有通过便签说明。
蜘蛛陷阱:flash、session id(跟踪用户访问生成网址参数)、框架架构(Frame)、动态url(数据库生成带有?=及参数的网址,目前抓取来说没有问题,过多参数还是不利于搜索引擎,建议生成静态,伪静态注意url唯一)、js、强制使用cookie。
导航清晰:树状结构,主次栏目导航、面包屑导航(当前位置)、避免页脚堆积栏目。
网站权重布局:首页>频道>栏目>文章页子域名>目录。
禁止抓取:nofollow:不跟踪链接,不传递权重和锚文本robots:禁止抓取网站内容,如淘宝网全站禁止,一般禁止抓取后台及数据库信
息,可以屏蔽目录来解决重复收录的问题(如:http://www.baidu.com/robots.txt),Canonical:地址规范标签。
动态url:数据库生成带有问好、等号及参数,容易让搜索引擎限于死循环,现在抓取没有问题,容易造成重复,所以建议Url静态化、伪静态(url重写)。
Url规范:越短越好、注意目录层次。
网站地图:用户看的文字栏目地图和给搜索引擎的链接xml地图。
尽可能多的曝光内链促进收录和内部投票(织梦做到了极致:头条、推荐、幻灯、特荐、相关、排行、最新等)。
页面优化
1、title
不同网页标题不一致,网页相关,字数限制(30个中文字符),尽量不要堆砌,关键词出现最前面,吸引点击,一个页面关键词控制在3个内,标题不要写没意义的词句,关键词之间的连接符:_、-、〉、|。
2、description
现主流搜索算法不采用,搜索结果采用,影响点击,如果与不包含搜索词则提取内文或随机。77字符,首页、栏目、自己写,内容也提取摘要便签,或者正文前几十个字符,或者留空。
3、keywords
现主流搜索算法不采用,内容页调用tag标签或留空。
4、正文
词频与密度,以前说密度在2%-8%之间,现在的重要性降低,内容页长尾关键词2次左右,正文第一段、中间、结尾穿插,首页、栏目主词无定数,自然恰当,合适融入,切莫堆砌。
网页内标签:H(H1-H6,标题)、黑体(内容重点)、alt(图片说明)
关键词的变形多次、组合、拆分,有助于提取页面主题
语义相关:算法通过词与词之间是否经常出现在同一网页分析他们之间的联系,如优化“奥巴马”,多出现白宫、美国等能帮助搜索引擎页面真正意思。
用户体验:段落清晰,主次分明,重点加黑,第一屏是否有实质内容、广告是否影响浏览。
5、精简代码
css的冗余、css/js外部调用、减少删除注释,控制页面大小(128kb,过大影响打开速度和抓取)
6、内部链接合理,过大总体排名降低
7、外部链接相关性帮助与提升自身页面相关性。
8、保持合理的页面更新频率及数量
9、社会化分享:如百度分享、评论可能会作为页面受欢迎参考值。
Google沙盒期:新站或长期不更新网站突然大量更新增加大量外链等不正常现象的排名呢后移,Google会有6个月左右,百度新站很注重网站内容质量。
10、文章优化注意点(呓城经验总结)
标题:具有用户搜索属性,多有疑问词,比如是什么、怎么办等,可以用复合标题
摘要:摘要言简意赅,能概况文章内容,或起到引导作用,包含关键词
结构:排版工具格式化,段落清晰格式化编辑,分段小标题、关键词加粗可以用1234、一二三四目录格式,添加图片,这两种对用户体验和当前搜索引擎结果页展示都很良好
内容:不要完全照抄,多篇文章整合,加上自己描述,删繁就简,注重内容对用户的价值,谨慎做标题党文无题意,或者文章内容过多没有重点标识用户难以找到想知道的内容等损害用户体验的事情
外部链接建设(百度官方意见)
百度多次打击外链,并且已经下架外链工具,SEO已经从以前单纯发外链就可以得到排名,到现在极度注重内容的阶段,这是好事,我表达下我的观点,我
认为外链工作应该从SEO中剔除,我承认高权相关的外链人仍有排名助力,但不要刻意,低质垃圾外链有害无用,还有一点,做长尾不要发外链,不然很容易抢占
自身的排名,恢复起来时间很漫长,总得来说就是,做SEO不要再发外链了,注重关键词内容质量优化,外链应该回到推广引流的正确位置,而非继续浪费时间制
造互联网垃圾,友情链接对SEO依然很重要。
SEO系统涉及的内容非常多,详细内容可以参阅百度站长平台发布的《百度搜索引擎优化指南2.0》http://zhanzhang.baidu.com/college/documentinfo?id=193
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)