首先,光年日志的下载与安装
光年日志的下载源比较多,随便一搜都能找到。只要将下载后的文件解压,然后点击光年日志的启动文件(GnAnalyzer.exe)即可开始使用。
说明:在开始使用之前,还必须从网站服务器中下载服务器日志文件,一般是存LOG、logs、weblogs等文件玩夹中,下载后的文件名后缀是以.log结尾,每个服务器可能不一样,具体咨询服务器供应商。
现在就可以新建日志分析任务了。操作也很简单,点击左上角新建--下一步--添加文件--开始分析,即可在数秒内完成日志分析。分析结果是以.htm结尾的静态文件。
软件分析完毕后会自动弹出结果页,左侧有内容列表,右侧是分析报表细节,如下:
以上就是光年日志的基本操作,到了这一步,看不懂不要紧,只要多点击测试几下就会明白其中的意思了。以上图为例就可以看到蜘蛛爬行网站的时间和次数,具体一点的还可以看到各个页面的访问时间。光年日志可以提供访客信息和搜索引擎信息。
这些数据对SEO站长来说是很有意义的。我们可以根据分析结果改进和优化网站,比如说上面蜘蛛访问次数如果偏低,说明网页内容质量偏低,或者蜘蛛没有入口进入网站,适当的改善内容和外链引导可增加蜘蛛的访问次数,加快内容收录等。
另外,光年日志还可以查看蜘蛛状态码,当网站404状态码太多时,会降低搜索引擎对网站的信任度,比如我的网站刚改版,404状态码比较多,这时应该及时在站长平台提交死链,做好ROBOTS,这样过段时间蜘蛛就不会访问这些死链了,也不会影响网站的排名。
以上只是光年日志分析网站数据的一部分,在使用方法上,还可以将日志进行拆分,比如按搜索引擎拆分,按状态码拆分,多条件拆分,反正功能强大,数据丰富,对SEO站长来说是不可多得的优秀分析工具。
网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer 、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatibleMSIE8.0Windows NT 5.1Trident/4.0AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa Toolbar)"
分析:
117.26.203.167:来访ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
500:服务器响应状态码
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证 明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重 定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967:表示抓取了19967个字节
Mozilla/4.0 (compatibleMSIE 8.0Windows NT 5.1Trident/4.0
AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa
Toolbar表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知,抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好,这里分享下如何分辨百度蜘蛛《如何分辨真假百度搜索引擎蜘蛛IP》。
有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)