第一:字符串匹配的分词方法
(1)正向最大匹配法
就是把一个词从左至右来分词。
举个例子:”不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。
(2)反向最大匹配法
“不知道你在说什么”反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
(3)就是最短路径分词法。
就是说一段话里面要求切出的词数是最少的。
“不知道你在说什么”最短路径分词法就是指,把上面那句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
(4)双向最大匹配法。
而有一种特殊的情况,就是关健词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。
第二:词义分词法
就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,处在测试阶段
第三:统计分词法
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
比如,“我的,你的,许多的,这里,这一,那里”等等,这些词出现的比较多,就从这些词里面分开来。
如果一天写10篇文章,一年就可以写3650篇文章,给你的网站写3650个关键词并合理布局到你网站中,可以使用关键词挖掘工具提词,根据用户需求进行关键词的筛选,吸引流量指日可待。分词还有一种好处,那就是提升内页的排名。SEO是心理学,去猜想用户使用什么词搜索,从而进行非常有意思的工作。
在上一篇文章提到了基于中文分词的seo软文技巧一:断句,当您学会了断句以后需要认识到句子中的每个词的重要性,什么是核心词什么是控制词,只有您掌握了控制词与核心词的规律,才能更方便的查找文章的素材,文章的素材将决定文章的质量,那么文章的质量将会决定您网站seo的长远。一、分清什么是控制词与核心词
以上一篇文章为例,经过精细断句以后
6、网带主要应用于蔬菜清洗灭菌机
7、网带主要应用于海产品清洗灭菌机
8、网带主要应用于蔬菜巴氏杀菌机
9、网带主要应用于海产品巴氏杀菌机
可以看出每句话都会分清楚主谓宾,定状补,一般情况下,主语和宾语为核心词,谓语为控制词,那么在6句子中,网带和灭菌机为核心词,应用为控制词,蔬菜清洗为修饰词。
二、控制词与核心词的关系
从控制词来说,网带在灭菌机上有着应用的作用,那么应用在什么方面呢?修饰词为蔬菜清洗,从这点可以看出,控制词把主语控制在宾语的范围之内,主要体现在修饰应用,蔬菜清洗。
三、控制词与核心词为您提供文章素材的方向
从seo软文写作来说,只要您抓住了控制词与核心词,那么就不会脱离中文分词的关系,根据宾语查找主语的功能应用,更能体现文章的相关,经过总结,以及对产品的了解,即可写出一篇符合用户体验的文章。
总结:断句,控制词与核心词是查找文章素材来源的基础,在下一篇王克江将在为您介绍基于中文分词seo软文技巧三:素材整合
系列文章:
基于中文分词的seo软文技巧一:断句
版权所有seo韦迪欧(转载请保留)http://www.seovideo.cn/net-course/seo-course/187.html
下面给你整理了部分常用的专业术语:
1、搜索引擎优化(SEO:Search Engine Optimization)
SEO由英文Search Engine
Optimization缩写而来,中文意译为“搜索引擎优化”,SEO是指从自然搜索结果获得网站流量的技术和过程,是在了解搜索引擎自然排名机制的基
础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的目标
2、白帽SEO(White hat SEO)
白帽SEO是一种公正的手法,是使用符合主流搜索引擎发行方针规定的seo优化方法,它是与黑帽seo相反的,白帽SEO一直被业内认为是最佳的SEO手法,它是在避免一切风险的情况下进行操作的,同时也避免了与搜索引擎发行方针发生任何的冲突,它也是SEOer从业者的最高职业道德标准。
3、黑帽SEO(Black hat SEO)
笼统的说,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO,比如说垃圾链接,隐藏网页,桥页,关键词堆砌等等。
黑帽SEO就是作弊的意思,黑帽seo手法不符合主流搜索引擎发行方针规定,黑帽SEO获利主要的特点就是短平快,为了短期内的利益而采用的作弊方法,同时随时因为搜索引擎算法的改变而面临惩罚。
4、灰帽SEO
所谓灰帽SEO灰帽,即是指介于白帽与黑帽之间的中间地带,相对于白帽而言,会采取一些取巧的方式来操作,这些行为因为不算违规,但同样也不遵守规则,是为灰色地带
5、PageRank(PR值)
PageRank是迷恋Google的人们用来测试其站点在Google中的排名的一种度量标准,SEO和搜索引擎营销(SEM)专家也使用这个术语描述
网页在SERP中的排名以及Google根据排名算法给予站点的分数,无论如何定义,PageRank都是SEO的重要部分
6、百度权重
百度权重并不是像谷歌的PR、搜狗的SR、IBM hits等那样的算法,是对网站的综合评级。百度权重只是针对关键词排名方面给网站带来的欢迎度进行评级。
百度权重是爱站、站长工具等网站推出的针对网站关键词排名预计给网站带来流量,划分等级0-10的第三方网站欢迎度评估数据,百度官方明确表示不承认百度权重。
7、中文分词
这是中文搜索引擎特有的过程,指的是将中间没有空格的、连续的中文字符序列,分隔成一个一个单独的、有意义的单词的过程,在英文拉丁文文字中,词与词之间
有空格自然区隔,所以没有分词的必要,而中文句子包含很多词,词之间没有自然分隔,搜索引擎在提取、索引关键词及用户输入了关键词需要进行排名时,都需要
先进行分词。
8、网络爬虫(Spider)
网络爬虫(又被称为网页蜘蛛,网络机器人,搜索引擎蜘蛛,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)