搜索引擎使用sphider程序自动访问互联网上的网页并获取网页信息。sphider在访问一个网站时,会首先检查该网站的根目录下是否有一
个叫做robots.txt的纯文本文件,这个文件用于指定sphider在您的网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在
文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分
robots.txt文件格式
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optional space><value><optional space>”
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。
User-agent
该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到
“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该值的值为*,则对任何robot均有效
Disallow
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问
Allow
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许被robot访问的
通配符
sphider支持使用“*”和“$”来模糊匹配URL
shell脚本禁止搜索引擎抓取
禁止搜索引擎抓取网站的网址可以在每个网站的根目录下放置如下的robots.txt文件:
User-agent: *
Disallow: /
一键部署的shell脚本:
#!/bin/bash
#网站根目录定义
root_dir=("/var/www/")
#构建爬虫规则
for dir in ${root_dir[*]}
do
#删除过期的robots.txt文件
if [ -f $dir/robots.txt ]then
rm -r $dir/robots.txt
fi
#增加新的爬虫规则
echo "User-agent: *" >$dir/robots.txt
echo "Disallow: /" >>$dir/robots.txt
#修改权限
chown www-data.www-data $dir/robots.txt
done
1、SEO就是Search Engine Optimization的缩写,中文就是搜索引擎优化。
2、PR 值全称为PageRank(网页级别),是Google用于用来标识网页的等级、重要性的一种方法,是Google用来衡量一个网站的好坏的重要标准之一。
3、SEM 搜索引擎营销,SEM常常是指通过付费和广告向搜索引擎推销Web站点
4、TKD title 、keywords、description的缩写
5、(crawler, robot, spider) 蜘蛛,机器人,爬虫
6、BR 百度权重简称
7、白帽SEO 正当方式优化站点,使它更好地为用户服务并吸引爬行器的注意。
8、黑帽SEO 用垃圾技术欺骗搜索引擎。
9、站点地图 一个对蜘蛛程序友好的网页,它提供了指向网站域里面其他网页的链接。
10、robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
11、外链 站外其他网站发布的链接。
12、内链 网站内部布置的超链接。
13、301重定向也被称为永久重定向,是一条对网站浏览器的指令,来显示浏览器被要求显示的不同的URL,当一个网也经历过其URL的最后一次变化以后时使用。
14、404错误页面404 错误意味着链接指向的网页不存在。
锚文本锚文本就是链接文本,是链接的一种形式。超链接的代码是锚文本,把关键词做一个链接,指向别的网页,这种形式的链接就叫作锚文本。
以上14个,是seo优化的一些常用术语。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)