语义网1999年左右由TBL(Tim Berners-Lee)提出,他老人家是万维网之父,一直贼心不死的想把万维网更进一步。万维网好到不行,但是最主要的问题:人是主要的消费者。也就是说,人要来读网上的信息,这样又慢又累,还没法发挥万维网的所有潜质。要是 机器能直接理解和消费万维网 该有多好!于是,他老人家就向这个方向先走了一步,并学着马丁路德金同志的演说,也宣称自己有个梦想。原文如下:
Berners-Lee originally expressed his vision of the Semantic Web as follows:
看!他说,我有一个梦......
然后 为了能让机器(或者说你写的应用)理解网上的内容,他和W3C的一帮家伙一起,制定了一堆标准 ,这些标准说:你可以用这样的格式和方法把结构化的数据加到现有的网页里,这些结构化的数据,还有一个更牛的名字,叫 语义 。这样,现有的 万维网就成了语义网 。
然后大家就和他一起练,风起云涌了一阵子。但是有个大问题: 谁来把结构化的数据(就是RDF语句们)一点一点地加到现有的网页里(这个动作叫做semantic mark-up)? 拥有网页的人说,我没有动力这么做,谁也不给我什么好处!
这下子语义网的革命运动进入了低潮,并且在低潮很长时间,就像国足差不多。到了2006左右,突然有了 linked data(其实就是语义网技术的一个实现) ,大家又乐了一把,的确有些不错的应用,连Pinterest,Twitter等都用了一把,但是没有让人眼前一亮的感觉。
革命就又进入了低潮。终于到了2012,大牛谷歌,天天练PageRank, MapReduce,练得有点烦了,于是想起了语义网。正好,谷歌已经推广了 http://schema.org ,再加上DBpedia等等,看起来时机成熟,于是就在饭前便后的空余时间里,推出了 知识图(knowledge graph) 。
知识图依赖于几个关键的技术组件, 其中 语义网的主要技术构件成为了知识图的技术核心 。于是语义网的同志们十分高兴,觉得语义网终于找到了组织。
现在,知识图基本上成了语义网的同义词,而且牛的不行。慢慢看看吧,希望好日子不远了。
搜索引擎排名的基础之一,就是关键词与网页的相关性。机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。
两年前搜索引擎优化业界很热烈的谈论过一阵潜在语义索引(Latent Semantic Indexing)。因为时间比较久,记得也不是很清楚,大概介绍一下。
所谓潜在语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。
举个例子,电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。
要注意的是,潜在语义索引并不依赖于语言,所以SEO和搜索引擎优化虽然一个是英语,一个是中文,但这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。
再比如苹果和橘子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。
搜索引擎有没有使用潜在语义索引,至今没有定论,因为搜索引擎既不承认也不否认。但一个事实是2002年Google买下了拥有潜在语义索引专利的一家公司Allied Semantic。
这种语义分析技术可以给我们在搜索引擎优化上一些提示。
网站主题的形成
通常逻辑和结构适当的网站都会分成不同的频道或栏目。在不同的频道中谈论有些区别但紧密相关的话题,这些话题共同形成网站的主题。搜索引擎在把整个网站的页面收录进去后,能够根据这些主题词之间的语义相关度判断出网站的主题。
网页内容写作
从两年前开始,搜索引擎排名有一个现象,搜索某个关键词,排在靠前面的网页有时甚至并不含有所搜索的关键词,这很有可能是潜在语义索引在起作用。
比如搜索电脑,排在前面的网页有可能出现一篇只提到计算机却没提到电脑。因为搜索引擎通过语义分析知道这两个词是紧密相关的。
还有一个要注意的是,在进行网页写作的时候,不要局限于目标关键词,应该包含与主关键词语义相关相近的词汇,以支持主关键词。
这在搜索结果中也有体现,有的文章虽然大量出现主关键词,但缺少其他支撑词汇,排名往往不好。
计算机协议及体系结构网络协议与层次结构1.2.1网络体系结构
1.网络协议
通过通信信道和网络设备互联起来的不同地理位置的多个计算机系统,要使其能协同工作实现信息交换和资源共享,它们之间必须具有共同的语言。交流什么、怎样交流及何时交流,都必须遵循某种互相都能接受的规则。
网络协议(Protocol)是为进行计算机网络中的数据交换而建立的规则、标准或约定的集
合。准确地说,它是对同等实体之间通信而制定的有关规则和约定的集合
网络协议的三个要素: 、
l)语义(Semarlties)涉及用于协调与差错处理的控制信息。
2)语法(Syntax)涉及数据及控制信息的格式、编码及信号电平等。
3)定时(Timing)涉及速度匹配和定序等。
2.网络的体系结构及其划分所遵循的原则计算机网络系统是一个十分复杂的系统。将一个复杂系统分解为若干个容
易处理的子系统。分层就是系统分解的最好方法之一。
在图1-4所示的一般分层结构中,n层是n-l层的用户,又是n+l层的服务提供者。n+1层虽然只直接使用了n层提供的服务,实际上它通过n层还间接地使用了n-1层以及以下所有各层的服务。、
层次结构的好处在于使每一层实现一种相对独立的功能。分层结构还有利于交流、理解和标准化。
所谓网络的层次模型就是计算机网络各层次及其协议的 集合。层次结构一般以垂直分层模型来表示,层次结构的要点:
1)除了在物理媒体上进行的是实通信之外,其余各对等实体间进行的都是虚通信。
2)对等层的虚通信必须遵循该层的协议。
3)n层的虚通信是通过n/n-l层间接口处n-l层提供的服务以及n-1层的通信(通常也
是虚通信)来实现的。
1.2.2网络体系结构
网络体系结构最常用的分为两种:
OSI七层结构和TCP/IP(TramferControlProtocol/InternetProtocol,传输控制协议/网际协议)四层结构。TCP/IP协议是Internet的核心协议。
1.OSI/RM基本参考模型
开放系统互联(OpenSystemIntercomectim)基本参考模型是由国际标准化组织(ISO)
制定的标准化开放式计算机网络层次结构模型,又称ISO/OSI参考模型。"开放"这个词表示能使任何两个遵守参考模型和有关标准的系统可以进行互联。
OSI/RM包括了体系结构、服务定义和协议规范三级抽象。OSI的体系结构定义了一个七层模型,用以进行进程间的通信,并作为一个框架来协调各层标准的制定gOSI的服务定义描述了各层所提供的服务,以及层与层之间的抽象接口和交互用的服务原语:OSI各层的协议规范,精确地定义了应当发送何种控制信息及何种过程来解释该控制信息。
OSI/RM的七层参考模型结构包括:从下至上分别为物理层、数据链路层、网络层、传输层,
会话层、表示层和应用层。
2.Internet层次模型
Internet网络结构以TCP/IP协议层次模型为核心,
共分四层结构:应用层、传输层、网际层和网络接口层。TCP/IP的体系结构与ISO的OSI七层参考模型的对应关系如图1-6所示。TCP/IP是Internet的核心,利用TCP/IP协议可以方便地实现各种网络的平滑、无缝连接。在TCP/IP四层模型中,作为最高层的应用层相当于OSI的5~7层,该层中包括了所有的高层协议,如常见的文件传输协议FTP(文件传输协议)、电子邮件SMTP,(简单邮件传送协议)、域名系统DNS(域名服务)、网络管理协议SNMP、访问WWW的超文本传输协议HTTP、远程终端访问协议TELNET等。
TCP/IP的次高层为传输层,相当于OSI的传输层,该层负责在源主机和目的主机之间提供端到端的数据传输服务。这一层上主要定义了两个协议:面向连接的传输控制协议TCP和无连接的用户数据报协议UDP(UserDatagramProtocol)。
TCP/IP的第二层相当于OSI的网络层,该层负责将报文(数据包)独立地从信源传送到信宿,主要解决路由选择、阻塞控制级网际互联问题。这一层上定义了网际协议(InternetProtocol,IP协议)、地址转换协议ARP(AddressResolutionProtocol)、反向地址转换协议RARP(ReverseARP)和网际控制报文协议ICMP(InternetCOIltrolMessageProtocol)等协议。
TCP/IP的最低层为网络接口层,该层负责将IP分组封装成适合在物理网络上传输的帧格式并发送出去,或将从物理网络接收到的帧卸装并递交给高层。这一层与物理网络的具体实现有关,自身并无专用的协议。事实上,任何能传输IP报文的协议都可以运行。虽然该层一般不需要专门的TCP/IP协议,各物理网络可使用自己的数据链路层协议和物理层协议。
3.Internet主要协议
TCP/IP协议集的各层协议的总和亦称作协议枝。给出了TCP/IP协议集与OSI参
考模型的对应关系。其中每一层都有着多种协议。一般来说,TCP提供传输层服务,而IP提供网络层服务。
(l)TCP/IP的数据链路层
数据链路层不是TCP/IP协议的一部分,但它是TCP/IP与各种通信网之间的接口。这些通信网包括多种广域网和各种局域网。
一般情况下,各物理网络可以使用自己的数据链路层协议和物理层协议,不需要在数据链路层上设置专门的TCP/IP协议。但是,当使用串行线路连接主机与网络,或连接网络与网络时,例如用户使用电话线接入网络肘,则需要在数据链路层运行专门的SLIP(SerialLineIP)协议的PPP(PointtoPointProtocol)协议。
(2)TCP/IP网络层
网络层最重要的协议是IP,它将多个网络联成一个互联网,可以把高层的数据以多个数据报的形式通过互联网分发出去。
网络层的功能主要由IP来提供。除了提供端到端的报文分发功能外,IP还提供了很多扩充功能。例如:为了克服数据链路层对帧大小的限制,网络层提供了数据分块和重组功能,这使得很大的IP数据报能以较小的报文在网上传输。
网络层的另一个重要服务是在互相独立的局域网上建立互联网络,即网际网。网间的报文来往根据它的目的IP地址通过路由器传到另一网络。
IP的基本任务是通过互联网传送数据报,各个IP数据报之间是相互独立的。主机上的IP层向传输层提供服务。IP从源传输实体取得数据,通过它的数据链路层服务传给目的主机的IP层。IP不保证服务的可靠性,在主机资源不足的情况下,它可能丢弃某些数据报,同时IP也不检查被数据链路层丢弃的报文。
在传送时,高层协议将数据传给IP层,IP层再将数据封装为互联网数据报,并交给数据链路层协议通过局域网传送。若目的主机直接连在本局域网中,IP可直接通过网络将数据报传给
目的主机若目的主机在其他网络中,则IP路由器传送数据报,而路由器则依次通过下一网络将数据报传送到目的主机或再下一个路由器。即IP数据报是通过互联网络逐步传递,直到终点为止。
(3)TCP/IP传输层
TCP/IP在这一层提供了两个主要的协议:传输控制协议(TCP)和用户数据协议(UDP)。TCP提供的是一种可靠的数据流服务。当传送有差错数据,或网络故障,或网络负荷太
重不能正常工作时,就需要通过其他协议来保证通信的可靠。TCP就是这样的协议,它对应于OSI模型的传输层,它在IP协议的基础上,提供端到端的面向连接的可靠传输。
TCP采用"带重传的肯定确认"技术来实现传输的可靠性。简单的"带重传的肯定确认"是指与发送方通信的接收者,每接收一次数据,就送回一个确认报文J发送者对每个发出去的
报文都留一份记录,等到收到确认之后再发出下一报文。发送者发出报文时,启动计时器,若计时器计数完毕,确认还未到达,则发送者重新发送该报文。
TCP通信建立在面向连接的基础上,实现了一种"虚电路"的概念。双方通信之前,先建立一条连接,然后双方就可以在其上发送数据流。这种数据交换方式能提高效率,但事先建立连接和事后拆除连接需要开销。
4.TCP/IP协议族中的其他协议
TCP/IP是网络中使用的基本的通信协议,是一系列协议和服务的总集。虽然从名字上看
τCP/IP包括两个协议一一…传输控制协议(TCP)和网际协议(IP),但TCP/IP实际上是一组协议,包括了上百个各种功能的协议,如:远程登录、文件传输和电子邮件(PPP,ICMP,ARP/
RARP,UDP,FTP,HTTP,SMTP,SNMP,RIP,OSPF)等协议,而TCP协议和IP协议是保证数据完整传输的两个最基本的重要协议。通常说TCP/IP是指TCP/IP协议族,而不单单是TCP和IP。TCP/IP依靠TCP和IP这两个主要协议提供的服务,加上高层应用层的服务,共同实现了TCP/IP协议族的功能。
TCP/IP的最高层与OSI参考模型的上三层有较大区别,也没有非常明确的层次划分。其中FTP,TELNET,SMTP,DNS是几种广泛应用的协议,TCP/IP中还定义了许多别的高层协议。
(l)文件传输协议FTP
FTP(FileTransferProtocol):文件传输协议,允许用户将远程主机上的文件拷贝到自
己的计算机上。
文件传输协议是用于访问远程机器的专门协议,它使用户可以在本地机与远程机之间进行有关文件的操作。FTP工作时建立两条TCP连接,条用于传送文件,另一条用于传送控制。
FTP采用客户/服务器模式,它包含FTP客户端和FTP服务器。客户启动传送过程,而服 务器对其做出应答。客户FTP大多有交互式界面,使客户可以方便地上传或下载文件。
(2)远程终端访问TELNET
Telnet(RemoteLogin):提供远程登录功能,用户可以登录到远程的另一台计算机土,如同在远程主机上直接操作一样。
设备或终端进程交互的方讼,支持终端到终端的连接及进程到进程分布式计算的通信。
(3)域名服务DNS
DNS是一个域名服务的协议,提供域名到IP地址的转换,允许对域名资源进行分散管理。(4)简单邮件传送协议SMTP
SMTP(SimpleMailTransferProtocol,简单邮件传输协议),用于传输电子邮件。
互联网标准中的电子邮件是基于文件的协议,用于可靠、有效的数据传输。SMTP作为应用层的服务,并不关心它下面采用的是何种传输服务,它可通过网络在TCP连接上传送邮件, 或者简单地在同一机器的进程之间通过进程通信的通道来传送邮件。
邮件发送之前必须协商好发送者、接收者。SMTP服务进程同意为接收方发送邮件时,它将邮件直接交给接收方用户或将邮件经过若干段网络传输,直到邮件交给接收方用户。在邮件传输过程中,所经过的路由被记录下来。这样,当邮件不能正常传输时可按原路由找到发送者。
13网络互联基础
1.3.1IP地址
IP地址和域名是Internet使用的、符合TCP/IP协议规定的地址方案。这种地址方案与日常生活中涉及的电话号码和通信地址相似,涉及到Internet服务的每一环节。IP协议要求所有Internet的网络节点要有统一规定格式的地址,简称IP地址。IP地址是运行TCP/IP协议的唯一标识符。TCP/IP协议是上层协议,无论下层是何种拓扑结构的网络,均应统一在上层IP地址上。任何网络接入Internet,均应使用IP地址。
IP地址是唯一的、全球识别的InterIEt网络地址,采用32位二进制(即4字节)的格式。
在Internet上,每台计算机或网络设备都被分配一个IP地址,这个IP地址在整个InterIIet网络中是唯一的,保证了Internet成为全球开放互联的网络系统。
1.3.2IP地址的格式和分类
IP地址可表达为二进制格式和十进制格式。二进制的IP地址为32位,分为4个8位二进制数。为书写方便起见,常将每个字节作为一段并以十进制数来表示,每段间用"."分隔,每段取值为0~255,。例如:135.111.5.27(二进制格式:10000111.01101111.00000101.00011011)就是合怯的IP地址。
IP地址由网络标识和主机标识两部分组成。常用的IP地址有ATB,C三类,每类均规定
了网络标识和主机标识在32位中所占的位数。这三类IP地址的格式表示范围分别为:
A类地址:0.0.0.O~127.255.255.255
B类地址:128.0.0.O~191.255.255.255
C类地址:192.0.0.O~233.255.255.255
A类IP地址一般用于主机数多达160余万台的大型网络,前8位代表网络号,后3个8
位代表主机号。32位的最高位为Og十进制的第一组数值范围为000~127。IP地址范围为:001.x.y.z~126.x.y.z。
B类IP地址一般用于中等规模的各地区网管中心,前两个8位二进制代表网络号,后两个8位代表主机号。32位的最高两位为10十进制的第一组数值范围为128~191。IP地址范围为:128.x.y.Z~191.x.y.z。
C类地址一般用于规模较小的本地网络,如校园网、企业网、政府机构网等。前三个8位代表网络号,最后8位代表主机号。32位的最高3位为110,十进制第一组数值范围为192~223。IP地址范围为:192.x.y.z~223.x.y.z。一个C类地址可连接256个主机。
A类地址一般分配给具有大量主机的网络使用,B类地址通常分配给规模中等的网络使用,C类地址通常分配给小型局域网使用。为了确保唯→性,IP地址由世界各大地区的权威机构InterNIC(InternetNetworkInformationCenter)管理和分配。
1.3.3子网的划分与掩码
在Internet中,如果每个物理网络就要占用一个网络号,是不够用的。另外,如果每个单位增添新的物理网络(例如新建楼房或新部门中新建的网络)就要向Internet的NIC申请新网络号,也太麻烦,并且不便于IP地址的分配管理。
,
在IP地址的某个网络标识中,可以包含大量的主机(如A类地址的主机标识域为24位,B类地址的主机标识域为16位),而在实际应用中不可能将这么多的主机连接到单一的网络中, 这将给网络寻址和管理带来不便。为解决这个问题,可以在网络中引入"子网"的概念。
注意:这里的子网与前面所说的通信子网是两个完全不同的概念。将主机标识域进一步划分为子网标识和子网主机标识,通过灵活定义子网标识域的位数,可以控制每个子网的规模。将一个大型网络划分为若干个既相对独立又相互联系的子网后,网络内部各子网便可独立寻址和管理,各子网间通过跨子网的路由器连接,这样也提高了网络的安全性。
利用子网掩码可以判断两台主机是否在同一子网中。子网掩码与IP地址一样也是32位二进制数,不同的是它的子网主机标识部分为全"。"。若两台主机的IP地址分别与它们的子网掩码相"与"后的结果相同,则说明这两台主机在同一网中。
1.子网划分
为使多个物理网络共用一个IP地址,可以采取把IP地址中主机号部分进一步划分为子网号和主机号两部分。例如:一个B类IP地址,可以把第三个字节作为子网号,第四个字节作为子网(物理网络)上主机号。
2.子网掩码
IP路由选择算法是根据IP数据报报头中目的地址的网络号,查找它的路由表,找到一个表项的目的网络号能与它匹配,然后用匹配上表项的中继IP地址作为发送该数据报到达目的主机的下一个路由器地址。IP数据报报头中目的地址的网络号是根据该地址最高位值来决定它是哪一类IP地址,网络号应占用多少位。
划分了子网后,就不能从地址的最高位值来判断网络号占用的位数了,用户可以自行决定子网号占用的位数。为了解决这个问题,必须使用子网掩码(mask)子网掩码是一个32位的数,其中取值为1的位,对应网络号或子&网号:取值为0的位,对应主机号。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)