搜索引擎使用sphider程序自动访问互联网上的网页并获取网页信息。sphider在访问一个网站时,会首先检查该网站的根目录下是否有一
个叫做robots.txt的纯文本文件,这个文件用于指定sphider在您的网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在
文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分
robots.txt文件格式
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optional space><value><optional space>”
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。
User-agent
该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到
“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该值的值为*,则对任何robot均有效
Disallow
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问
Allow
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许被robot访问的
通配符
sphider支持使用“*”和“$”来模糊匹配URL
shell脚本禁止搜索引擎抓取
禁止搜索引擎抓取网站的网址可以在每个网站的根目录下放置如下的robots.txt文件:
User-agent: *
Disallow: /
一键部署的shell脚本:
#!/bin/bash
#网站根目录定义
root_dir=("/var/www/")
#构建爬虫规则
for dir in ${root_dir[*]}
do
#删除过期的robots.txt文件
if [ -f $dir/robots.txt ]then
rm -r $dir/robots.txt
fi
#增加新的爬虫规则
echo "User-agent: *" >$dir/robots.txt
echo "Disallow: /" >>$dir/robots.txt
#修改权限
chown www-data.www-data $dir/robots.txt
done
seo是个很复杂、系统的过程,需要注意的地方有很多,需要坚持,注意细节,注意的要点很多,如以下几点:一、做好定位,围绕主题展开
作为网站,做seo需要做好定位,围绕主题展开,这样可以紧紧围绕主题展开,不至于偏离主题。做好网站规划,内容的规划,栏目的设定,导航的设置。
二、分析并选择关键词
关键词是对网站的一种简单而又综合性的描述,网站关键词分析也叫做关键词定位。关键词分析首先要做的就是根据自身情况来分析并确定所要设置的关键词。除此之外,还要分析关键词的竞争度,至于关键词竞争度的分析,再通过站长工具、搜索引擎来实现。分析完关键词竞争度之后,最后就是设置关键词了,关键词设置要密切注意密度,不要出现关键词堆砌的现象。
三、分析网站的架构
对于网站的架构,要通过实现网站树形目录结构,网站导航以及链接优化等手段,打造一个搜索引擎喜好的网站架构,从而获得搜索引擎的喜爱,最终实现流量的积累。
四、优化网站目录和页面
做好网站目录和页面的优化,不仅可以在搜索引擎中获得一个好排名,还可以获取更多的流量。
五、有规律的发布内容和合理地设置链接
搜索引擎喜欢有规律更新更新内容的网站,要是提供高质量的原创文章,那就更好了。然后在网站上合理设置链接,把整个网站有机地串联起来,让搜索引擎明白每个页面的重要性和关键词。
六、交换高质量的友情链接
在进行SEO的时候,要建立高质量额友情链接,这样可以提高网站pr以及网站更新率。此外,通过建立友情链接可以获取一定的流量,让网站的影响力更加扩大。
七、建立网站地图sitemap以及robots.txt
建立网站地图可以实现网站对搜索引擎更加友好化,可以有效的让搜索引擎通过sitemap访问整个站点上的所有网页和栏目,这样更有利于搜索引擎对站点实现更多的收录。此外,也可以建立robots.txt,提醒搜索引擎不要抓取哪些页面。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)