一、两种上网方式的不同之处
1、代理上网:
代理服务器连接目标网站服务器,转发客户端请求给目标网站服务器;
目标网站服务器响应代理服务器请求,返回信息给代理服务器;
代理服务器将网站服务器的返回信息转送给用户客户端。
2、不使用代理IP上网:
用户客户端连接目标网站服务器,向目标网站发出请求;
目标网站服务器响应客户端请求,返回信息给客户端。
通过对两种方式的对比,我们可以看出,使用代理IP上网比不使用代理IP需要更多步骤,也就表明着更多消耗,网速就会更慢一些。
二、代理IP宽带和客户端宽带的对比
1、代理IP的带宽
开放代理IP的带宽一般是很多人同时使用,如果是独享IP一个人用的带宽才会高。
2、客户端的带宽
客户端的宽带多为家庭宽带和公司宽带,小则百兆,大则千兆;
客户端的带宽一般是个人使用,或者家庭成员和公司成员共用,使用人数较少。
通过两种带宽对比,我们可以看出,客户端的带宽要比代理IP的带宽大的多,共同使用的人数也更少,网速自然会比使用代理IP后更快。
Python爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
HTTP代理的分类
根据代理ip的匿名程度,代理IP可以分为下面四类:
透明代理:能够直接“隐藏”你的ip地址,但是还是可以查到你是谁。
匿名代理:匿名代理比透明代理进步了一点,别人只能知道你用了代理,无法知道你是谁。
混淆代理:与匿名代理相同,假设使用混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真
高匿代理:可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。
在使用的使用,毫无疑问使用高匿代理效果最好
而且,进行大批量的爬虫时,仅仅使用一两个代理是完全不够用的,ip一定被封就无法继续抓取数据了,所以需要大量的高匿IP。
HTTP和HTTPS的不同
http是非常常见的应用层协议,是超文本传输协议的简称,其传输的内容都是明文的。
http是HTTP协议运行在TCP之上。所有传输的内容都是明文,客户端和服务器端都无法验证对方的身份。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)