SEO网站优化搜索引擎蜘蛛抓取预处理过程?

SEO网站优化搜索引擎蜘蛛抓取预处理过程?,第1张

1、提取文字现在的搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,JavaScript 程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。2、中文处理分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词。比如“公务员考试”将被分词为“公务员”和“考试”两个词。3、去停止词无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the ,a ,an ,to ,of 等。4、去除噪音绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类“ 这些关键词时仅仅因为页面上有这些词出现而返回博客贴子是毫无意义的,完全不相关。所以这些区城都司于噪声,对页面主题只能起到分散作用。5、去重 去重的基本方法是对页面特征关系 词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词(经常是出现频率最高的关系词),然后计算这些关键词的数字指纹。这些关键词选取是在分词、去停止词、消噪之后。通常选取10个特征关键词就可以达到比较高的计算准备性,再选取更多词对去重准确性提高的贡献也就不大了。6、正向索引7、倒序索引8、链接关系计算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重9、特殊文件处理除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序

网站优化SEO原理

在进行seo优化的过程中,我们还要对各种情况都进行合理的分析,真正的去认识到整个网站的一些情况,这样在今后优化过程中,也可以找到正确的方向。下面是我整理的网站优化SEO原理相关知识,希望对你有帮助!

一、搜索引擎的搜索过程

1、抓取网页:每个独立的搜索引擎都有自己的网页抓取程序(spider,即通常所说的“蜘蛛”程序)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的'网站并将有关信息存入数据库,以备用户查询。

2、处理网页:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他的操作还包括去除重复网页、分析超链接、计算网页的重要度等等。

3、提供检索服务:用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息等。

二、搜索引擎优化(SEO)简介

SEO是英文Search Engine Optimization的缩写,中文意思即是搜索引擎优化。SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。

三、国内各搜索引擎的使用率分析

百度搜索:72.25% GOOGLE搜索:17.05%

QQ搜索:4.36% 雅虎搜索:3.31%

搜狐-搜狗:1.81% 其它搜索引擎:1.22%

1.白帽方法

搜索引擎优化的白帽法遵循搜索引擎的接受原则。他们的建议一般是为用户创造内容、让这些内容易于被搜索引擎机器人索引、并且不会对搜寻引擎系统耍花招

。一些网站的员工在设计或构建他们的网站时出现失误以致该网站排名靠后时,白帽法可以发现并纠正错误,譬如机器无法读取的选单、无效链接、临时改变导向、效率低下的索引结构等。

2.黑帽方法

黑帽方法通过欺骗技术和滥用搜索算法来推销毫不相关、主要以商业为着眼的网页。黑帽SEO的主要目的是让网站得到他们所希望的排名进而获得更多的曝光率,这可能导致令普通用户不满的搜索结果。

因此搜索引擎一旦发现使用“黑帽”技术的网站,轻则降低其排名,重则从搜索结果中永远剔除该网站。选择黑帽SEO服务的商家,一部分是因为不懂技术,在没有明白SEO价值所在的情况下被服务商欺骗;另一部分则只注重短期利益,存在赚一笔就走人的心态。

扩展资料:

seo的优势

1、价格优势

长期看来,相比于关键词推广来说,搜索引擎优化需要做的只是维护网站,保证网站具有关键词优势的过程,并不需要为用户的每一次点击付费,因此比竞价排名要便宜许多。

另外,搜索引擎优化可以忽略搜索引擎之间的独立性,即使只针对某一个搜索引擎进行优化,网站在其他搜索引擎中排名也会相应提高,达到了企业在关键词推广中重复付费才能达到的效果。

2、管理简单

如果企业将网站搜索引擎优化的任务交给专业服务商,那么企业在网站管理上基本不需要再投入人力,只需不定期观察企业在搜索引擎中的排名是否稳定即可。、而且,这种通过修改自身达到的自然排名效果,让企业不需担心恶意点击的问题。

3、稳定性强

企业网站进行搜索引擎优化之后,只要网站维护得当,那么在搜索引擎中排名的稳定性也非常强,很长时间都不会变动。

参考资料:

百度百科-seo


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/540717.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-26
下一篇2023-06-26

发表评论

登录后才能评论

评论列表(0条)

    保存