没有爬虫定律这个说法啊。搜索引擎的爬虫就是搜索引擎的采集软件,每天不停的抓取、采集互联网上的网页。
网络爬虫工作原理
1、聚焦爬虫工作原理及关键技术概述
网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
对抓取目标的描述或定义;
对网页或数据的分析与过滤;
对URL的搜索策略。
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。
什么是爬虫?搜索引擎原理中是这样说的:爬虫也称为“Wanderers”(漫步者)或者“Robots”(机器人),我们常说的百度爬虫经常用后者代替。它首先是一组运行在计算机的程序,在搜索引擎中负责抓取时新的且公共可访问的web网页、图片和文档等资源。这种抓取的过程为通过下载一个网页,分析其中的链接,继而漫游到其他链接指向的网页,循环往返。爬虫的发展史要从第一个爬虫开始讲起。那么下面给大家介绍下世界上第一个爬虫,爬虫简称是一种自动抓取网页信息的机器人。世界上第一个爬虫是由麻省理工学院的学生马休·格雷在1993年写的,并给他起了一个名字“万维网漫步者”。尽管其编写目的不是为了做搜索引擎,但正是这革命的创新,为以后的搜索引擎发展和今天的广泛应用提供了坚实的基础。
现代搜索引擎的思路源于Wanderes,不少人改进了马休·格雷的蜘蛛程序。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了当时著名的搜索引擎Lycos。这应该也算是第一个搜索引擎了。其后无数的搜索引擎促使了爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果是的搜索引擎能够渐叟几乎全部的万维网页,甚至被删除的网页也可以通过”网页快照“的功能访问。
下面给你整理了部分常用的专业术语:
1、搜索引擎优化(SEO:Search Engine Optimization)
SEO由英文Search Engine
Optimization缩写而来,中文意译为“搜索引擎优化”,SEO是指从自然搜索结果获得网站流量的技术和过程,是在了解搜索引擎自然排名机制的基
础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的目标
2、白帽SEO(White hat SEO)
白帽SEO是一种公正的手法,是使用符合主流搜索引擎发行方针规定的seo优化方法,它是与黑帽seo相反的,白帽SEO一直被业内认为是最佳的SEO手法,它是在避免一切风险的情况下进行操作的,同时也避免了与搜索引擎发行方针发生任何的冲突,它也是SEOer从业者的最高职业道德标准。
3、黑帽SEO(Black hat SEO)
笼统的说,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO,比如说垃圾链接,隐藏网页,桥页,关键词堆砌等等。
黑帽SEO就是作弊的意思,黑帽seo手法不符合主流搜索引擎发行方针规定,黑帽SEO获利主要的特点就是短平快,为了短期内的利益而采用的作弊方法,同时随时因为搜索引擎算法的改变而面临惩罚。
4、灰帽SEO
所谓灰帽SEO灰帽,即是指介于白帽与黑帽之间的中间地带,相对于白帽而言,会采取一些取巧的方式来操作,这些行为因为不算违规,但同样也不遵守规则,是为灰色地带
5、PageRank(PR值)
PageRank是迷恋Google的人们用来测试其站点在Google中的排名的一种度量标准,SEO和搜索引擎营销(SEM)专家也使用这个术语描述
网页在SERP中的排名以及Google根据排名算法给予站点的分数,无论如何定义,PageRank都是SEO的重要部分
6、百度权重
百度权重并不是像谷歌的PR、搜狗的SR、IBM hits等那样的算法,是对网站的综合评级。百度权重只是针对关键词排名方面给网站带来的欢迎度进行评级。
百度权重是爱站、站长工具等网站推出的针对网站关键词排名预计给网站带来流量,划分等级0-10的第三方网站欢迎度评估数据,百度官方明确表示不承认百度权重。
7、中文分词
这是中文搜索引擎特有的过程,指的是将中间没有空格的、连续的中文字符序列,分隔成一个一个单独的、有意义的单词的过程,在英文拉丁文文字中,词与词之间
有空格自然区隔,所以没有分词的必要,而中文句子包含很多词,词之间没有自然分隔,搜索引擎在提取、索引关键词及用户输入了关键词需要进行排名时,都需要
先进行分词。
8、网络爬虫(Spider)
网络爬虫(又被称为网页蜘蛛,网络机器人,搜索引擎蜘蛛,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)