背景
爬虫形势
Web安全形势一直不容乐观, 根据 Globaldots的2018年机器人报告 , 爬虫占据Web流量的42%左右.
为什么要反爬
防资源过度消耗
大量的机器人访问网站, 设想你的网站有42%的流量都不是真的人访问的. 相当一部分还会大量占用后台的网络带宽, 服务器计算, 存储资源.
防黄牛党
航空公司占座: 黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。
防薅羊毛党
黄牛党在电商活动时针对有限的高价值商品的限时秒杀、优惠活动等可牟利场景,批量发起机器请求来模拟正常的交易,再将商品、资源进行倒卖从中赚取差价,导致电商企业的营销资源无法触达正常用户,而被黄牛牟取暴利。
防黑客
核心接口被刷: 登录、注册、短信等业务环节作为业务中的关键节点,相关接口往往会被黑客利用,为后续的欺诈行为作准备。
私信菜鸟007即可获取数十套PDF!
为什么需要日志分析
找出隐藏更深的机器人
爬虫与反爬虫是一个攻与防的过程, 根据前述报告, 高级机器人占据了74%的比例(剩余是比较简单的机器人), 而根据 FileEye M-Trends 2018报告 ,企业组织的攻击从发生到被发现,一般经过了多达101天,其中亚太地区问题更为严重,一般网络攻击被发现是在近498(超过16个月)之后。有了日志才能更好的找出隐藏很深的坏机器人.
了解机器人并区分对待
爬虫也分好与坏, 搜索引擎来查询, 才可以达到SEO效果并带来更多有价值的访问. 通过日志可以帮助管理员更好的区分哪些是好的机器人, 并依据做出更加适合自己的反爬配置.
保留报案证据
发现非法攻击的机器人, 可以保留攻击者信息与路径, 作为报警的重要证据.
增强运维效率
基于日志可以发现异常, 并能快速报警并采取行动.
更多附加功能
依托日志服务的其他功能, 可以发挥日志的更大价值.
阿里云反爬管理 - 实时日志分析概述
阿里云反爬管理
云盾Anti-Bot Service是一款网络应用安全防护产品,专业检测高级爬虫,降低爬虫、自动化工具对网站的业务影响。 产品提供从Web、App到API接口的一整套全面的恶意Bot防护解决方案,避免某一环节防护薄弱导致的安全短板。
阿里云日志服务
阿里云的日志服务(log service)是针对日志类数据的一站式服务,无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能,提升运维、运营效率。日志服务主要包括 实时采集与消费、数据投递、查询与实时分析 等功能,适用于从实时监控到数据仓库的各种开发、运维、运营与安全场景:
目前,阿里云WAF与日志服务打通,对外开发Web访问与攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。
发布地域
适用客户
功能优势
反爬日志实时查询分析服务具有以下功能优势:
开通前提
限制说明
反爬管理所存储的日志库属于专属的日志库,有如下限制:
使用场景
1.追踪机器人爬取与封禁日志,溯源安全威胁:
查看Top 100的爬取机器人列表:
2. 实时正常可信Web请求活动,洞察状态与趋势:
查看PV/UV访问趋势的SQL:
3. 快速了解安全运营效率,即时反馈处理:
查看有效请求与拦截率趋势的SQL:
4. 输出安全网络日志到自建数据与计算中心
进一步参考
我们会陆续发布WAF安全日志分析的最佳时间, 这里可以进一步参考相关用户手册:
阿里云服务器ecs怎么使用
方法如下:
注册我的专属域名,控制我的云服务器,使用Xshell,运行Xshell。
点击Xshell上方导航栏的窗口-传输新建文件即可快速免密运行Xpft软件。
在云服务器下部署Java Web项目
jdk和tomcat都弄好了,接下来可以用浏览器访问我的云服务器。
云服务器的业内名称其实叫做计算单元。所谓计算单元,就是说这个服务器只能算是一个人的大脑,相当于普通电脑的CPU,里面的资源都是有限的。你要获得更好的性能,解决办法一是升级云服务器,二是将其它耗费计算单元资源的软件部署在对应的云服务上。例如数据库有专门的云数据库服务、静态网页和图片有专门的文件存储服务。
而且云服务器不是说就便宜了,相反会比一般的VPS都贵。为什么?因为它相对于来说,扩展比较方便。云服务器是网站做大了、有很高收入的时候一个不错的选择。
云服务器是云计算服务的重要组成部分,是面向各类互联网用户提供综合业务能力的服务平台。平台整合了传统意义上的互联网应用三大核心要素:计算、存储、网络,面向用户提供公用化的互联网基础设施服务。
造成服务器带宽跑满的原因有很多,大致可以归结为以下几类:
病毒
Windows 系统服务器中病毒或站点挂马,导致服务器内部有对外发包的文件。
建议在服务器上安装杀毒软件,进行杀毒。可以通过任务管理器中查看是否异常进程。当前阿里云暂时没有提供杀毒软件,您可以登陆服务器根据自己的日常使用的杀毒软件进行安装即可。
网络攻击
服务器或站点遭受 DDOS 攻击或 CC 攻击等,短期内产生大量的访问需求。
可以登陆阿里云管理控制台,查看云盾中的防护 DDOS 攻击是否调整好阈值,并核实是否开启CC防护。
目前CC防护有自己默认的阈值,由于安全问题此阈值暂时不对外公开。如果攻击没有触发到阈值,云盾没有清洗,可以提交工单到售后请手工协助开起清洗,后期该调整阈值的功能会对外放。
存在耗资源进程
服务器内部有耗资源进程。
Windows Server 2003 系统无法直接查看到,但可以借助第三方软件查看
Windows Server 2008 系统可以启动 任务管理器>性能>资源监控器>网络>查看 发送(字节/秒) 占用较多的进程。如果不是常用进程,说明可能是病毒或异常文件如果是常用进程,说明该进程当前有异常,需要针对该进程对应的服务进行一下分析。
根据以往经验,曾发现过因搜狗拼音的更新,以及疑似上传本地词库导致的出网带宽跑高。
爬虫
正常网站所消耗的带宽较多,此类情况建议通过访问的日志来分析,如果日志中过多的 baiduspider 或 googlebot 。说明网页被爬虫抓取,大量来自搜索引擎的链接也容易跑高带宽,例如:
windows-cmd 下找到 iis的日志,可以使用命令 type *.log | find “baidu “ 等。
Linux 的 Apache 和 nginx 可以检查 cat access.log | grep baidu 等。
同时检查站点是否存有 MP3,flv,swf 等大文件被频繁访问下载,如果此类文件较多,建议减少这些文件,可搭配使用 OSS、CDN 服务。
网站规模大
网站规模较大(比如门户网站、商城等),即网站本身访问量需求大,查看网站的 Page View 值、Hits 值、日流量都很高,建议升级带宽 。
造成流量大的原因主要有:
网站页面设计不合理;
页面中包含大图片或音频、视频文件等文件,导致网站页面太大;
网站提供.mp3,.rar,.zip.exe等文件的下载,或网站提供视频、音频文件的播放;
如果网站规模较大,网站的点击率很高,建议减少音频、视频文件。如果还不能满足要求,可以升级带宽。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)