网页的上传及处理,网页的上传是通过Ftp上传,之前需要对上传的网页添加标题、描述、关键词等,或者对代码进行优化处理。看个人能力,如果是从后台上传,直接复制文章即可。
抓取
机器人、外链、站长工具提交:机器人对网页的自动抓取,这里需要注意的是不要禁止机器人抓取即可,另外外链也是对于网页抓取的一种帮助。而百度站长工具同时有提交链接的,个人可自动提交以及让站长自动抓取。
过滤
复制、采集、垃圾、丰富度、价值:过滤是网站对网页的一种机制,判断网页中内容的原创、价值等。如果页面过于垃圾或者价值过低,一般对网页的收录有一定的影响。
收录:收录是展现网页的一部分,网页之后在被收录的情况下,在百度中搜索才能够搜索到。不然一个不被收录的网页,用户是不能够搜索到,从而也无法进入到网站中。
展现
网页被收录后就涉及到展现的问题,同时一个网页内容。但是我们在输入一些内容时,能够看到或许自己的网页并不在首页,或者在首页并且排名很好。这就涉及到百度算法以及页面自身的问题了。
搜索引擎的工作原理总共有四步:
第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,所以称为爬行。
第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。
第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。
不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。
扩展资料:
定义
一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter
Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件 。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)