C/C++教程

第138篇:了解HTTP协议(TCP/IP协议,DNS域名解析,浏览器缓存)

本文主要是介绍第138篇:了解HTTP协议(TCP/IP协议,DNS域名解析,浏览器缓存),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

好家伙,发现自己的网络知识十分匮乏,赶紧补一下

 

这里先举个我生活中的例子

欸,作业不会写了,上网搜一下

用edge浏览器上bing必应搜一下(百度广告太多了,真不想用百度举例子)

 

假设这是我们第一次访问bing的首页
当我向浏览器中输入https://cn.bing.com/并按下回车
浏览器做了什么?
(我们要分清两个端,客户端和服务器端)

1.浏览器向宽带运营商服务器或者域名服务器发起一个 DNS 解析请求,之后浏览器获得了bing首页的 IP 地址。

 

2.拿到 IP 地址后,浏览器就向该 IP 所在的服务器建立 TCP 连接(即三次握手)。

 

3.连接建立起来之后,浏览器就可以向服务器发起 HTTP 请求了。

 

4.服务器接受到这个请求后,根据路径参数,经过后台一些处理之后,把处理后的结果返回给浏览器(把完整的HTML页面代码返回给浏览器)
 
5.浏览器(客户端)拿到了完整的HTML网页代码,浏览器内核和JS引擎就会开始解析和渲染这个页面,
 里面的JS,CSS,图片等静态资源也通过后续的HTTP请求进行加载
 
6.浏览器根据拿到的资源对页面进行渲染,最终把完整的页面呈现给用户。
 
7.如果浏览器没有后续的请求,那么就会跟服务器端发起 TCP 断开(即四次挥手)。
 
 

1.浏览器缓存

浏览器缓存(Browser Caching)是为了节约网络的资源加速浏览,浏览器在用户磁盘上对最近请求过的文档进行存储,
当访问者再次请求这个页面时,浏览器就可以从本地磁盘显示文档,这样就可以加速页面的阅览。
                                                ---百度百科
继续上面的例子:
当我们再次使用edge打开bing搜索首页时,
edge优先搜索自身的DNS缓存,找到https://cn.bing.com/的IP地址
然后重复上述步骤
 
若https://cn.bing.com/的完整HTML网页和静态资源已经在浏览器缓存中(在上一次访问中留下的资源,且未被删除),
那么直接进行加载。
DNS缓存,以及相关的网页资源都属于浏览器缓存
 
根据这两个例子,我们继续学习:
 
2.什么是DNS?
域名系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务。
它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。
                                            ----百度百科
 
结合上面的例子我们不难理解这个东西,
就像之前上线我自己的项目的时候,我的网站就是一串IP地址,然后我要去买一个域名,
这样,别人就可以通过域名来访问我的网站,而不是通过一串IP地址
 
www.baidu.com显然比 111.426.125.789 更易读

 来自小米新域名价格曝光:简直太土豪了-小米,新域名,交易,价格,曝光,土豪, ——快科技(驱动之家旗下媒体)--科技改变未来 (mydrivers.com)

 

 那么域名到IP的解析,就是通过DNS来完成的

 
 

2.什么是http协议?

超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。

它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出;

     

                                         ----百度百科

2.1.HTTP基础概念

HTTP,全称为 HyperText Transfer Protocol,即为超文本传输协议。

是互联网应用最为广泛的一种网络协议,所有的 www 文件都必须遵守这个标准。

 

2.2.HTTP 特性:

  • HTTP 是无连接无状态的
  • HTTP 一般构建于 TCP/IP 协议之上,默认端口号是 80

HTTP 可以分为两个部分,即请求和响应。

HTTP 请求由三个部分构成,分别是:状态行,请求头,请求正文

HTTP 响应由类似的三个部分构成:状态行,响应头,响应正文

 

2.3.HTTP消息结构

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式。

 

2.3.1.服务器响应消息

 (两张都是在菜鸟偷的图)

 

2.4.HTTP 请求方法:

HTTP 定义了在与服务器交互的不同方式,最常用的方法有 4 种,分别是 GET,POST,PUT, DELETE。

URL 全称为资源描述符,可以这么认为:一个 URL 地址,对应着一个网络上的资源,而 HTTP 中的 GET,POST,PUT,DELETE 就对应着对这个资源的查询,修改,增添,删除4个操作。

(哦,熟悉的增删查改)

 

2.5.HTTP响应头信息

应答头 说明
Allow

服务器支持哪些请求方法(如GET、POST等)。

Content-Encoding

文档的编码(Encode)方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩,但只有Unix上的Netscape和Windows上的IE 4、IE 5才支持它。因此,Servlet应该通过查看Accept-Encoding头(即request.getHeader("Accept-Encoding"))检查浏览器是否支持gzip,为支持gzip的浏览器返回经gzip压缩的HTML页面,为其他浏览器返回普通页面。

Content-Length

表示内容长度。只有当浏览器使用持久HTTP连接时才需要这个数据。如果你想要利用持久连接的优势,可以把输出文档写入 ByteArrayOutputStream,完成后查看其大小,然后把该值放入Content-Length头,最后通过byteArrayStream.writeTo(response.getOutputStream()发送内容。

Content-Type

表示后面的文档属于什么MIME类型。Servlet默认为text/plain,但通常需要显式地指定为text/html。由于经常要设置Content-Type,因此HttpServletResponse提供了一个专用的方法setContentType。

Date

当前的GMT时间。你可以用setDateHeader来设置这个头以避免转换时间格式的麻烦。

Expires

应该在什么时候认为文档已经过期,从而不再缓存它?

Last-Modified

文档的最后改动时间。客户可以通过If-Modified-Since请求头提供一个日期,该请求将被视为一个条件GET,只有改动时间迟于指定时间的文档才会返回,否则返回一个304(Not Modified)状态。Last-Modified也可用setDateHeader方法来设置。

Location

表示客户应当到哪里去提取文档。Location通常不是直接设置的,而是通过HttpServletResponse的sendRedirect方法,该方法同时设置状态代码为302。

Refresh

表示浏览器应该在多少时间之后刷新文档,以秒计。除了刷新当前文档之外,你还可以通过setHeader("Refresh", "5; URL=http://host/path")让浏览器读取指定的页面。
注意这种功能通常是通过设置HTML页面HEAD区的<META HTTP-EQUIV="Refresh" CONTENT="5;URL=http://host/path">实现,这是因为,自动刷新或重定向对于那些不能使用CGI或Servlet的HTML编写者十分重要。但是,对于Servlet来说,直接设置Refresh头更加方便。

注意Refresh的意义是"N秒之后刷新本页面或访问指定页面",而不是"每隔N秒刷新本页面或访问指定页面"。因此,连续刷新要求每次都发送一个Refresh头,而发送204状态代码则可以阻止浏览器继续刷新,不管是使用Refresh头还是<META HTTP-EQUIV="Refresh" ...>。

注意Refresh头不属于HTTP 1.1正式规范的一部分,而是一个扩展,但Netscape和IE都支持它。

Server

服务器名字。Servlet一般不设置这个值,而是由Web服务器自己设置。

Set-Cookie

设置和页面关联的Cookie。Servlet不应使用response.setHeader("Set-Cookie", ...),而是应使用HttpServletResponse提供的专用方法addCookie。参见下文有关Cookie设置的讨论。

WWW-Authenticate

客户应该在Authorization头中提供什么类型的授权信息?在包含401(Unauthorized)状态行的应答中这个头是必需的。例如,response.setHeader("WWW-Authenticate", "BASIC realm=\"executives\"")。
注意Servlet一般不进行这方面的处理,而是让Web服务器的专门机制来控制受密码保护页面的访问(例如.htaccess)。

 

2.6.HTTP 状态码

HTTP 响应中包含一个状态码,用来表示服务器对客户端响应的结果。

HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型。

响应分为五类:信息响应(100–199),成功响应(200–299),重定向(300–399),客户端错误(400–499)和服务器错误 (500–599):

分类 分类描述
1** 信息,服务器收到请求,需要请求者继续执行操作
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误

 

 

常见状态码:

100 Continue 继续。客户端应继续其请求
101 Switching Protocols 切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议

 

 

 

200 OK 请求成功。一般用于GET与POST请求
201 Created 已创建。成功请求并创建了新的资源
202 Accepted 已接受。已经接受请求,但未处理完成

 

 

 

 

 

300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择
301 Moved Permanently 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302 Found 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI

 

 

 

 

400 Bad Request 客户端请求的语法错误,服务器无法理解
401 Unauthorized 请求要求用户的身份认证
402 Payment Required 保留,将来使用
403 Forbidden 服务器理解请求客户端的请求,但是拒绝执行此请求
404 Not Found 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面

 

 

 

 

 

500 Internal Server Error 服务器内部错误,无法完成请求
501 Not Implemented 服务器不支持请求的功能,无法完成请求
502 Bad Gateway 作为网关或者代理工作的服务器尝试执行请求时,从远程服务器接收到了一个无效的响应
503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求
505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理

 

 

 

 

 

 

(以上表格均来自菜鸟教程HTTP 教程 | 菜鸟教程 (runoob.com))

 

3.TCP是什么?

传输控制协议(TCP,Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793 [1]  定义。
TCP旨在适应支持多网络应用的分层协议层次结构。 连接到不同但互连的计算机通信网络的主计算机中的成对进程之间依靠TCP提供可靠的通信服务。
TCP假设它可以从较低级别的协议获得简单的,可能不可靠的数据报服务。 原则上,TCP应该能够在从硬线连接到分组交换或电路交换网络的各种通信系统之上操作。
传输控制协议(TCP,Transmission Control Protocol)是为了在不可靠的互联网络上提供可靠的端到端字节流而专门设计的一个传输协议。
                                                          ----百度百科
 
所以这也是个。。。传输协议?。。
百度百科上说的太复杂了
我决定去菜鸟看
 

3.1.浏览器与服务器都在使用 TCP/IP 协议

浏览器与服务器使用 TCP/IP 协议来链接因特网。

浏览器使用 TCP/IP 协议进入服务器,服务器使用 TCP/IP 协议来发送 HTML 到浏览器。

 

3.2.因特网地址是 TCP/IP 协议

因特网地址比如 "42.120.45.233" 就是一个 TCP/IP 协议。

 

3.3.IP地址

每个计算机必须有一个 IP 地址才能够连入因特网。

每个 IP 包必须有一个地址才能够发送到另一台计算机。

在本教程下一节,您会学习到更多关于 IP 地址和 IP 名称的知识。

 

3.4.IP 是无连接的

IP 用于计算机之间的通信。

IP 是无连接的通信协议。它不会占用两个正在通信的计算机之间的通信线路。这样,IP 就降低了对网络线路的需求。每条线可以同时满足许多不同的计算机之间的通信需要。

通过 IP,消息(或者其他数据)被分割为小的独立的包,并通过因特网在计算机之间传送。

IP 负责将每个包路由至它的目的地。

 

3.5.IP 路由器

当一个 IP 包从一台计算机被发送,它会到达一个 IP 路由器。

IP 路由器负责将这个包路由至它的目的地,直接地或者通过其他的路由器。

在一个相同的通信中,一个包所经由的路径可能会和其他的包不同。而路由器负责根据通信量、网络中的错误或者其他参数来进行正确地寻址。

 

3.6TCP/IP

TCP/IP 意味着 TCP 和 IP 在一起协同工作。

TCP 负责应用软件(比如您的浏览器)和网络软件之间的通信。

IP 负责计算机之间的通信。

TCP 负责将数据分割并装入 IP 包,然后在它们到达的时候重新组合它们。

IP 负责将包发送至接受者。

 

3.7.建立连接

TCP是因特网中的传输层协议,使用三次握手协议建立连接。当主动方发出SYN连接请求后,等待对方回答SYN+ACK,并最终对对方的 SYN 执行 ACK 确认。
这种建立连接的方法可以防止产生错误的连接,TCP使用的流量控制协议是可变大小的滑动窗口协议。 
TCP三次握手的过程如下:
  1. 客户端发送SYN(SEQ=x)报文给服务器端,进入SYN_SENT状态。
  2. 服务器端收到SYN报文,回应一个SYN (SEQ=y)ACK(ACK=x+1)报文,进入SYN_RECV状态。
  3. 客户端收到服务器端的SYN报文,回应一个ACK(ACK=y+1)报文,进入Established状态。
三次握手完成,TCP客户端和服务器端成功地建立连接,可以开始传输数据了。
                                                                                     ----百度百科

3.8.连接终止

 TCP是因特网中的传输层协议,使用四次挥手协议断开连接(看不懂...)
 TCP四次挥手详解_‍oOoOoOooOO的博客-CSDN博客
 
 
参考文章:
1.网络基础知识之 HTTP 协议 - 知乎 (zhihu.com)
2.百度百科_全球领先的中文百科全书 (baidu.com)
3.TCP三次握手详解-深入浅出(有图实例演示)_jun2016425的博客-CSDN博客
4.TCP/IP 教程 | 菜鸟教程 (runoob.com)
 
 
这篇关于第138篇:了解HTTP协议(TCP/IP协议,DNS域名解析,浏览器缓存)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!