语义网1999年左右由TBL(Tim Berners-Lee)提出,他老人家是万维网之父,一直贼心不死的想把万维网更进一步。万维网好到不行,但是最主要的问题:人是主要的消费者。也就是说,人要来读网上的信息,这样又慢又累,还没法发挥万维网的所有潜质。要是 机器能直接理解和消费万维网 该有多好!于是,他老人家就向这个方向先走了一步,并学着马丁路德金同志的演说,也宣称自己有个梦想。原文如下:
Berners-Lee originally expressed his vision of the Semantic Web as follows:
看!他说,我有一个梦......
然后 为了能让机器(或者说你写的应用)理解网上的内容,他和W3C的一帮家伙一起,制定了一堆标准 ,这些标准说:你可以用这样的格式和方法把结构化的数据加到现有的网页里,这些结构化的数据,还有一个更牛的名字,叫 语义 。这样,现有的 万维网就成了语义网 。
然后大家就和他一起练,风起云涌了一阵子。但是有个大问题: 谁来把结构化的数据(就是RDF语句们)一点一点地加到现有的网页里(这个动作叫做semantic mark-up)? 拥有网页的人说,我没有动力这么做,谁也不给我什么好处!
这下子语义网的革命运动进入了低潮,并且在低潮很长时间,就像国足差不多。到了2006左右,突然有了 linked data(其实就是语义网技术的一个实现) ,大家又乐了一把,的确有些不错的应用,连Pinterest,Twitter等都用了一把,但是没有让人眼前一亮的感觉。
革命就又进入了低潮。终于到了2012,大牛谷歌,天天练PageRank, MapReduce,练得有点烦了,于是想起了语义网。正好,谷歌已经推广了 http://schema.org ,再加上DBpedia等等,看起来时机成熟,于是就在饭前便后的空余时间里,推出了 知识图(knowledge graph) 。
知识图依赖于几个关键的技术组件, 其中 语义网的主要技术构件成为了知识图的技术核心 。于是语义网的同志们十分高兴,觉得语义网终于找到了组织。
现在,知识图基本上成了语义网的同义词,而且牛的不行。慢慢看看吧,希望好日子不远了。
搜索引擎排名的基础之一,就是关键词与网页的相关性。机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。
两年前搜索引擎优化业界很热烈的谈论过一阵潜在语义索引(Latent Semantic Indexing)。因为时间比较久,记得也不是很清楚,大概介绍一下。
所谓潜在语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。
举个例子,电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。
要注意的是,潜在语义索引并不依赖于语言,所以SEO和搜索引擎优化虽然一个是英语,一个是中文,但这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。
再比如苹果和橘子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。
搜索引擎有没有使用潜在语义索引,至今没有定论,因为搜索引擎既不承认也不否认。但一个事实是2002年Google买下了拥有潜在语义索引专利的一家公司Allied Semantic。
这种语义分析技术可以给我们在搜索引擎优化上一些提示。
网站主题的形成
通常逻辑和结构适当的网站都会分成不同的频道或栏目。在不同的频道中谈论有些区别但紧密相关的话题,这些话题共同形成网站的主题。搜索引擎在把整个网站的页面收录进去后,能够根据这些主题词之间的语义相关度判断出网站的主题。
网页内容写作
从两年前开始,搜索引擎排名有一个现象,搜索某个关键词,排在靠前面的网页有时甚至并不含有所搜索的关键词,这很有可能是潜在语义索引在起作用。
比如搜索电脑,排在前面的网页有可能出现一篇只提到计算机却没提到电脑。因为搜索引擎通过语义分析知道这两个词是紧密相关的。
还有一个要注意的是,在进行网页写作的时候,不要局限于目标关键词,应该包含与主关键词语义相关相近的词汇,以支持主关键词。
这在搜索结果中也有体现,有的文章虽然大量出现主关键词,但缺少其他支撑词汇,排名往往不好。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)