网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer 、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatibleMSIE8.0Windows NT 5.1Trident/4.0AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa Toolbar)"
分析:
117.26.203.167:来访ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
500:服务器响应状态码
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证 明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重 定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967:表示抓取了19967个字节
Mozilla/4.0 (compatibleMSIE 8.0Windows NT 5.1Trident/4.0
AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa
Toolbar表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知,抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好,这里分享下如何分辨百度蜘蛛《如何分辨真假百度搜索引擎蜘蛛IP》。
有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页
一、熟知搜索引擎工作原理:网站优化之前,我们一定要清楚搜索引擎的工作原理,毕竟SEO是针对搜索引擎操作的,搜索引擎一般由下面几个模块组成滴:
1:抓抓取模块2:过滤模块3:收收录模块4、排序模块。学懂这几个模块的SEO技术,搜索引擎的工作原理遇到一些问题的时候就可以知道问题的产生原因了。
二、学习SEO名词大全 作为一个SEO人常见的名词是必须熟知的,在后面的文章中,我们将会不断更新SEO名词解释的文章更新。
三、选择利于优化的域名和空间 要想优化好一个网站,从网站的初期就要做好各项优化准备,包括域名和空间相关的知识,也是需要学习的,一个好的域名和空间,而域名和空间对我们网站优化也起着非常重要的作用,所以在网站域名和空间方面的选择是必须要注重的。后面我们会针对域名和空间的选择写一篇详细的文章。
四、SEO常用工具 想要学好SEO,一些常用的SEO工具也要了解,比如站长工具,SEO综合查询,百度权重查询,关键词的挖掘,搜索引擎蜘蛛、机器人模拟工具,百度站长平台等等。SEO常用工具的使用方式也要掌握。
五、做好移动适配 我们做好一个网站以后,为了提升用户的移动搜索结果浏览体验,一定要做好移动适配功能。
六、提交链接 还要注意提交想被百度收录的链接,百度搜索引擎会按标准处理,进行收录,要注意的是,百度不一定会收录我们所提交的链接。
提交链接有主动推送,和提交sitemap。同时我们网站产生的死链接也要提交,如果百度发现一个网站的死链接过多,那么很有可能对该网站进行降权处理。假如我们的网站因为改版或者是内容调整的缘故导致网站出现大量死链接,那么就应该向百度提交死链接,以便百度可以快速加速时间进行清除。
七、网站优化的操作在网站优化的操作中有哪些需要做好的基础工作呢?
下面列举几个点:1、战略的制定:通过数据分析用户需求和竞争对手,找出SEO优化的突破口。2、关键词挖掘:根据用户需求和SEO优化的突破口进行关键词挖掘。3、网站搭建:按照战略目标,有计划的制定网站建设框架,网站搭建分为几个步骤:导航设计、页面框架、确定草图、设计设置展示。网站搭建之后就可以根据我们之前设计的框架对导航、首页、目录页、内页的标题和url进行设置了,同时也可以根据内容框架开始给网站填充内容。4、优化战略制定:首先,战略制定是SEO基础操作必须做好的一个工作。所谓的战略的制定就是我们要通过数据分析满足到我们网站的用户最大的搜索需求,并且通过对比竞争对手找到最适合的SEO优化方向。战略制定分为四个部分。后面的文章中我会不断更新。用户需求的竞争力坏人分析对手的突破口。确定了突破口,就说明我们的SEO项目是可操作的了。
八、对关键词进行挖掘 那么接下来的工作就是对关键词进行挖掘,下面介绍一些常见的关键词挖掘工具:1:百度下拉框2:百度相关搜索3:百度指数4:百度推广助手5:行业问答平台等等。
九、站内优化 以下是SEO优化前期需要做的一些工作:1:内容更新2:列出内容大纲3:优化标题:4、完善内容。
十、站外推广优化 接下来就是发高质量外链。还有进行营销推广工作。
很有可能还有的朋友没听说过网站日志文件,没关系下面我就来介绍下,网站日志文件的作用和重要性。一.首先我们来了解下什么是网站日志:
网站日志也叫IIS日志(Internet Information Services),意思是互联网信息服务,保存于网站空间内的一种文本文件,用来记录网站运行状态的各种数据,通常是在网站运行的过程中,由服务器程序实时更新记录。
二.网站日志分析的作用:
1.了解搜索引擎抓取网页的情况;
分析搜索引擎爬虫访问情况,我们可以分析出搜索引擎收录网页的一些线索,比如说“搜索引擎最近访问网站的频率是否正常?”,“搜索引擎比较喜欢访问哪部分网页?”等等。
2.了解网站内容及链接是否正常;
通过分析服务器返回的http状态码,可分析出网站存在着哪些问题,比如说“是否有死链接?”,“是否有页面元素被误删,比如图片、css脚本等等?”,“服务器是否曾出现暂时故障?”等等
3.查看网站是否安全;
了解网站被盗链的情况,如果有第三方网站调用我们网站的图片、视频或者网页文件,将会浪费我们的服务器资源,通过对日志的研究,可以很快发现这种问题。可初步分析网站是否被黑客植入程序,如果黑客利用网站程序的一些BUG,通过植入代码的进行进行攻击破解的话,通过日志分析就有可能找到这种痕迹。可初步分析是否有程序在大量抓取数据,搜索引擎或者第三方网站如果使用采集程序,大量反复采集我方网站数据,既会对服务器性能造成严重影响,而且会让我们的资料流转到其它网站上。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)