怎么解析http

怎么解析http,第1张

http响应格式

HTTP应答与HTTP请求相似,HTTP响应也由3个部分构成,分别是:

l  状态行

l  响应头(Response Header)

l  响应正文

在接收和解释请求消息后,服务器会返回一个HTTP响应消息。

状态行由协议版本、数字形式的状态代码、及相应的状态描述,各元素之间以空格分隔。

格式:HTTP-Version Status-Code Reason-Phrase CRLF

例如:HTTP/1.1 200 OK \r\n

状态代码:

状态代码由3位数字组成,表示请求是否被理解或被满足。

状态描述:

状态描述给出了关于状态代码的简短的文字描述。

状态代码的第一个数字定义了响应的类别,后面两位没有具体的分类。

第一个数字有五种可能的取值:

- 1xx: 指示信息—表示请求已接收,继续处理。

- 2xx: 成功—表示请求已经被成功接收、理解、接受。

- 3xx: 重定向—要完成请求必须进行更进一步的操作。

- 4xx: 客户端错误—请求有语法错误或请求无法实现。

- 5xx: 服务器端错误—服务器未能实现合法的请求。

状态代码 状态描述说明

200 OK客户端请求成功

400 Bad Request 由于客户端请求有语法错误,不能被服务器所理解。

401 Unauthonzed 请求未经授权。这个状态代码必须和WWW-Authenticate报头域一起使用

403 Forbidden 服务器收到请求,但是拒绝提供服务。服务器通常会在响应正文中给出不提供服务的原因

404 Not Found 请求的资源不存在,例如,输入了错误的URL。

500 Internal Server Error 服务器发生不可预期的错误,导致无法完成客户端的请求。

503 Service Unavailable 服务器当前不能够处理客户端的请求,在一段时间之后,服务器可能会恢复正常。

响应头

响应头可能包括:

Location:

Location响应报头域用于重定向接受者到一个新的位置。例如:客户端所请求的页面已不存在原先的位置,为了让客户端重定向到这个页面新的位置,服务 器端可以发回Location响应报头后使用重定向语句,让客户端去访问新的域名所对应的服务器上的资源。当我们在JSP中使用重定向语句的时候,服务器 端向客户端发回的响应报头中,就会有Location响应报头域。

Server:

Server响应报头域包含了服务器用来处理请求的软件信息。它和User-Agent请求报头域是相对应的,前者发送服务器端软件的信息,后者发送客户 端软件(浏览器)和操作系统的信息。下面是Server响应报头域的一个例子:Server: Apache-Coyote/1.1

WWW-Authenticate:

WWW-Authenticate响应报头域必须被包含在401(未授权的)响应消息中,这个报头域和前面讲到的Authorization请求报头域是 相关的,当客户端收到401响应消息,就要决定是否请求服务器对其进行验证。如果要求服务器对其进行验证,就可以发送一个包含了 Authorization报头域的请求,下面是WWW-Authenticate响应报头域的一个例子:WWW-Authenticate: Basic realm="Basic Auth Test!"

从这个响应报头域,可以知道服务器端对我们所请求的资源采用的是基本验证机制。

Content-Encoding:

Content-Encoding实体报头域被使用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容编码,因而要获得Content- Type报头域中所引用的媒体类型,必须采用相应的解码机制。Content-Encoding主要用语记录文档的压缩方法,下面是它的一个例子: Content-Encoding: gzip。如果一个实体正文采用了编码方式存储,在使用之前就必须进行解码。

Content-Language:

Content-Language实体报头域描述了资源所用的自然语言。Content-Language允许用户遵照自身的首选语言来识别和区分实体。 如果这个实体内容仅仅打算提供给丹麦的阅读者,那么可以按照如下的方式设置这个实体报头域:Content-Language: da。

如果没有指定Content-Language报头域,那么实体内容将提供给所以语言的阅读者。

Content-Length:

Content-Length实体报头域用于指明正文的长度,以字节方式存储的十进制数字来表示,也就是一个数字字符占一个字节,用其对应的ASCII码存储传输。

要注意的是:这个长度仅仅是表示实体正文的长度,没有包括实体报头的长度。

Content-Type

Content-Type实体报头域用语指明发送给接收者的实体正文的媒体类型。例如:

Content-Type: text/htmlcharset=ISO-8859-1

Content-Type: text/htmlcharset=GB2312

Last-Modified

Last-Modified实体报头域用于指示资源最后的修改日期及时间。

Expires

Expires实体报头域给出响应过期的日期和时间。通常,代理服务器或浏览器会缓存一些页面。当用户再次访问这些页面时,直接从缓存中加载并显示给用 户,这样缩短了响应的时间,减少服务器的负载。为了让代理服务器或浏览器在一段时间后更新页面,我们可以使用Expires实体报头域指定页面过期的时 间。当用户又一次访问页面时,如果Expires报头域给出的日期和时间比Date普通报头域给出的日期和时间要早(或相同),那么代理服务器或浏览器就 不会再使用缓存的页面而是从服务器上请求更新的页面。不过要注意,即使页面过期了,也并不意味着服务器上的原始资源在此时间之前或之后发生了改变。

Expires实体报头域使用的日期和时间必须是RFC 1123中的日期格式,例如:

Expires: Thu, 15 Sep 2005 16:00:00 GMT

HTTP1.1的客户端和缓存必须将其他非法的日期格式(也包括0)看作已过期。例如,为了让浏览器不要缓存页面,我们也可以利用Expires实体报头 域,设置它的值为0,如下(JSP):response.setDateHeader("Expires",0)

下面是一个HTTP响应的例子:

HTTP/1.1 200 OK

Server:Apache Tomcat/5.0.12

Date:Mon,6Oct2003 13:23:42 GMT

Content-Length:112

  http协议是超文本传输协议(HTTP,HyperText Transfer Protocol)的简称。http协议是互联网中使用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。

  http协议是一个客户端和服务器端请求和应答的标准(TCP)。客服端和服务端相互通信,必须要一种双方都能明白的语言。就好比两个人讲话,你说英语,我说汉语,肯定是谁都听不懂,瞎耽误工夫。咱俩交流就必须有互相能懂的语言。http协议就是定义了一种信息组合的标准,客户端和服务器都根据这个标准来通信。客户端想要从服务器那里获得资源,首先得需要服务器的地址,这决定了去哪个服务器请求资源。接着得需要资源路径,因为服务器肯定需要存有很多资源。有时候还需要向服务器传一些信息,比如用户名,密码等。http协议的请求标准就是定义了客户端应该怎样把这些信息组合,服务器才能正确解析。服务器接收到客服端的请求,要把服务端需要的数据传给客户端,http协议的响应标准就是定义了服务端向客户端传输数据的标准。

  为什么要从URL开始说起呢?因为我们发起一个http请求,只需要两个东西URL和参数,有时候还没有参数。所以URL对于http请求是不可获取的。为什么URL这么重要?下面我们就认识一下URL。

  URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址( 摘自百度百科 )。通俗点讲,就是一个URL包括了服务器的地址,资源的位置,有时候还有参数。

  举个例子: https://www.jianshu.com/u/f499dc93facb (我的地址,会定期更新一些技术博客,欢迎关注。),这就是一个URL地址。

​​http : 表示这个URL是遵守http协议。其实还有很多其他的协议。

www.jianshu.com :域名。域名要解析成IP地址,系统就是通过这个找到服务器的。

  有了URL之后,我们就可以构建一个HTTP请求了。一个NSMutableURLRequet对象就代表一个HTTP请求。

  这样就可以发起http请求了。此时默认请求方法(HTTPMethod)为 GET ,实体头部(Content-Type)为 application/x-www-form-urlencoded

  请求方法一共有8种,GET, POST , HEAD,OPTIONS,PUT, DELETE,TRACE 和 CONNECT 方法,最常用的GET和POST。GET和POST的区别就是参数的位置。GET把参数放在?后面,上面的例子就是。POST把参数放在请求体里面。我们也可以修改请求方法。

  实体头部(Content-Type)是参数的组合方式,常见的有application/x-www-form-urlencoded和application/json。默认为application/x-www-form-urlencoded,参数这样组合:key1=value1&key2=value2。如果是application/json,参数就要先变成JSON字符串,然后转化成Data,放在HTTPBody里面。

  除此之外,如果我们还想往服务器传一些其他的信息怎么办?http还定义了其他参数,设置方式和实体头部(Content-Type)的设置方式一样。

Accept-Language :客户端的语言环境。eg:zh-Hans-CNq=1。表示汉语。

User-Agent :客户端软硬件环境。eg:Mozilla/5.0 (MacintoshIntel Mac OS X 10.11rv:48.0) Gecko/20100101 Firefox/48.0。Mozilla:项目名称;

5.0:项目版本号;Macintosh:硬件名称(Macintosh简称Mac);Intel Mac OS X 10.11:Mac系统的名字以及版本号。

Accept-Encoding :客户端支持的数据压缩格式。eg:gzip

  HTTP协议规定,一个完整的由客户端发给服务器的HTTP请求包括请求头,请求行,请求体。那这么多信息,HTTP协议是怎么分配的呢?

​1. 请求头 :包含了对客户端的软硬件环境描述、客户端请求的主机地址等信息。

(1)客户端想访问的主机地址和端口

​Host:218.30.115.123:8080

​(2)客户端的软硬件环境

User-Agent:Mozilla/5.0 (MacintoshIntel Mac OS X 10.11rv:48.0) Gecko/20100101 Firefox/48.0

(3)客户端所能接收的数据类型

Accept:text/html , / ​

(4)客户端的语言环境

Accept-Language:zh-cn

(5)客户端支持的编码格式

Accept-Encoding:gzip

2. 请求行 :包含了请求方法、请求资源路径、HTTP协议版本;

GET/u/2552663324HTTP/1.1

3. 请求体 :GET、HEAD和DELETE请求方法没有,其他的方法才有。是客户端发给服务器的请求参数。

  客户端向服务器发送请求,服务器做出响应,及返回数据给客户端。那服务器都返回了写什么数据呢?HTTP协议规定:1个完整的HTTP响应中包换以下内容:状态行,响应头,实体内容,和HTTP请求相对。

1. 状态行 :包含了HTTP协议版本、状态码、状态英文名称。

(1)HTTP/1.1 200 OK

状态码:

1 (信息类):表示接收到请求并且继续处理

2 (响应成功):表示动作被成功接收、理解和接受

3 (重定向类):为了完成指定的动作,必须接受进一步处理

4 (客户端错误类):请求包含错误语法或不能正确执行

5 (服务端错误类):服务器不能正确执行一个正确的请求

​​2. 响应头 :包含了对服务器的描述、对返回数据的描述。

(1)服务器的环境

Server:Apache-Coyote/1.1

(2)返回的数据类型

Content-Type:text/htmlcharset=UTF-8​

(3)返回的数据长度

Content-Length:3012

(4)​​响应的时间

Date:Wed, 28 Sep 2016 06:38:08 GMT

3. 实体内容**:服务器返回给客户端的具体数据。

上一篇介绍了 HTTP 协议的版本迭代历史,本篇继续深入介绍一下 HTTP 协议的规范,本文主要介绍它的 URI 、 Request 、 Response 、状态码等等信息,通过了解这些具体的内容,可以更直观的理解 HTTP 的协议格式,以及工作原理。

HTTP 使用统一资源标识符( URI )来传输数据和建立连接。 URL (统一资源定位符)是一种特殊种类的 URI ,包含了用于查找的资源的足够的信息,我们一般常用的就是 URL ,而一个完整的 URL 包含下面几部分:

http://www.fishbay.cn:80/mix/76.html?name=kelvin&password=123456#first

该 URL 的协议部分为 http: ,表示网页用的是 HTTP 协议,后面的 // 为分隔符

域名是 www.fishbay.cn ,发送请求时,需要向 DNS 服务器解析 IP 。如果为了优化请求,可以直接用 IP 作为域名部分使用

域名后面的 80 表示端口,和域名之间用 : 分隔,端口不是一个 URL 的必须的部分。如果端口是 80 ,也可以省略不写

从域名的第一个 / 开始到最后一个 / 为止,是虚拟目录的部分。其中,虚拟目录也不是 URL 必须的部分,本例中的虚拟目录是 /mix/

从域名最后一个 / 开始到 ? 为止,是文件名部分;如果没有 ? ,则是从域名最后一个 / 开始到 # 为止,是文件名部分;如果没有 ? 和 # ,那么就从域名的最后一个 / 从开始到结束,都是文件名部分。本例中的文件名是 76.html ,文件名也不是一个 URL 的必须部分,如果没有文件名,则使用默认文件名

从 # 开始到最后,都是锚部分。本部分的锚部分是 first ,锚也不是一个 URL 必须的部分

从 ? 开始到 # 为止之间的部分是参数部分,又称为搜索部分、查询部分。本例中的参数是 name=kelvin&password=123456 ,如果有多个参数,各个参数之间用 &作为分隔符。

HTTP的请求包括:请求行(request line)、请求头部(header)、空行 和 请求数据 四个部分组成。

抓包的 request 结构如下:

GET 为请求类型, /mix/76.html?name=kelvin&password=123456 为要访问的资源, HTTP/1.1 是协议版本

从第二行起为请求头部, Host 指出请求的目的地(主机域名); User-Agent 是客户端的信息,它是检测浏览器类型的重要信息,由浏览器定义,并且在每个请求中自动发送。

请求头后面必须有一个空行

请求的数据也叫请求体,可以添加任意的其它数据。这个例子的请求体为空。

一般情况下,服务器收到客户端的请求后,就会有一个 HTTP 的响应消息,HTTP响应也由 4 部分组成,分别是:状态行、响应头、空行 和 响应体。

抓包的数据如下:

状态行由协议版本号、状态码、状态消息组成

响应头是客户端可以使用的一些信息,如: Date (生成响应的日期)、 Content-Type (MIME类型及编码格式)、 Connection (默认是长连接)等等

响应头和响应体之间必须有一个空行

响应正文,本例中是键值对信息

HTTP 协议的状态码由 3 位数字组成,第一个数字定义了响应的类别,共有 5 中类别:

其中,常用的状态码如下:

如需了解更多的状态码,请参考这个网址: HTTP状态码

HTTP 定义了多种请求方法,来满足各种需求。 HTTP/1.0 定义了三种请求方法: GET 、 POST 和 HEAD ,到了 HTTP/1.1 ,新增了五种请求方法: OPTIONS 、 PUT 、 DELETE 、 TRACE 和 CONNECT 。各个请求方法的具体功能如下:

实际应用过程中, GET 和 POST 使用的比较多,下面主要介绍一下二者的区别:

GET 请求会把请求的参数拼接在 URL 后面,以 ? 分隔,多个参数之间用 &连接;如果是英文或数字,原样发送,如果是空格或中文,则用 Base64 编码

POST 请求会把提交的数据放在请求体中,不会在 URL 中显示出来

GET : 浏览器和服务器会限制 URL 的长度,所以传输的数据有限,一般是 2K

POST : 由于数据不是通过 URL 传递,所以一般可以传输较大量的数据

GET : 通过 Request.QueryString 获取变量的值

POST : 通过 Request.form 获取变量的值

GET : 请求参数在 URL 后面,可以直接看到,尤其是登录时,如果登录界面被浏览器缓存,其他人就可以通过查看历史记录,拿到账户和密码

POST : 请求参数在请求体里面传输,无法直接拿到,相对 GET 安全性较高;但是通过抓包工具,还是可以看到请求参数的

HTTP 协议采用请求/响应模式,客户端向服务器发送一个请求报文,然后服务器响应请求。下面介绍一下一次 HTTP 请求的过程:

HTTPS 是安全的 HTTP 通道,即在HTTP通信中加入了 SSL 层(当前版本是 TLS1.2 ),通信的数据被加密了,防止被窃取,具体的通信流程如下:

HTTPS使用的加密方式结合了对称加密和不对称加密的特点,在保证安全的情况下,又提高了传输效率。HTTP和HTTPS的区别如下:

参考资料

http://www.jianshu.com/p/a01e5b4b64ec

http://www.jianshu.com/p/a6d04501ed6d


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/698126.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-03
下一篇2023-08-03

发表评论

登录后才能评论

评论列表(0条)

    保存