网站建设银行业务预约纪念币猪年纪念币预约,网站建设需要的语言,wordpress官方论坛,建筑设计公司取名字大全集该学习路径讲解了网络安全入门的必备技术知识#xff0c;比如计算机网络、网络协议、Linux命令、Windows设置等内容。上一篇中简短介绍了计算机网络相关的知识#xff0c;本篇博客将记录 网络协议 部分。
How the web works?
DNS in detail
DNS (Domain name system…该学习路径讲解了网络安全入门的必备技术知识比如计算机网络、网络协议、Linux命令、Windows设置等内容。上一篇中简短介绍了计算机网络相关的知识本篇博客将记录 网络协议 部分。
How the web works?
DNS in detail
DNS (Domain name system域名解析系统)它为我们提供了一种简单的方式去与互联网上的设备进行通信。
在网络中数据包要依照 IP 地址来寻找目的地对于设备而言IP 地址非常清晰。但对于人类而言如果要记住每一个想访问的页面的 IP 地址似乎有点不太现实。因此人们采用域名来代替 IP 地址日后人们只需要记住域名就可以域名和 IP 地址之间的转换工作就交给 DNS 处理。这就是 DNS 的作用。
Domain hierarchy
域名也有对应的层次结构如下图所示 在域名中 层级大小从右往左逐渐递减。按照图上内容我们可以总结出域名的各层结构
TLD (Top-level domain)顶级域名位于域名最右边。最常见的顶级域名就是 .com。顶级域名一般有两种类型gTLD ( generic TLD通用顶级域名) 和 ccTLD (country code TLD国家代码顶级域)。Second-level domain二级域名。以 baidu.com 为例baidu 就是二级域名。在注册域名时二级域名只能使用 63 个字符且只能使用 a-z 0-9 和 连字符 “-”不能以连字符开头或结尾也不能有连续连字符。Subdomain子域名。子域名位于二级域名左侧。以 pan.baidu.com 为例pan 就是子域名。子域名和二级域名一样只能使用 63 个字符且只能使用 a-z 0-9 和 连字符 “-” 构成。子域名没有个数限制但是必须保证整体的域名长度控制在 253 个字符以内。
DNS record type
DNS 不仅仅适用于网站因为它还存在多种类型的 DNS record DNS 记录。
A record该记录是 IPv4 地址解析结果AAAA record该记录是 IPv6 地址解析结果CNAME record该记录会解析到另一个域名上也称 别名记录。比如 tryhackme 有一个商城子域名 store.tryhackme.com它的 CNAME 记录为 shops.shopify.com那么 DNS 的解析顺序就是 store.tryhackme.com -- shops.shopify.com -- shops.shopify.com 的 IP 地址。MX record该记录会解析到收件人域名的邮箱服务器。这样我们的邮件才能知道该发往何处。TXT record该记录是自由文本字段可以存储任何基本文本的数据。该记录有多种用途最常见的是列出有权代表域名发送电子邮件的服务器这有助于打击垃圾邮件和识别是否为伪造身份的邮件。
DNS request
DNS 请求过程如下图所示 请求域名时计算机首先会查看本地缓存。若本地缓存存在则直接使用不存在就会向 Recursive DNS 递归DNS 服务器发出请求。Recursive DNS 服务器通常由 ISP 提供但也可以自行选择。收到请求后递归 DNS 服务器也会先查询其本地缓存。若本地缓存中存在则直接返回结果请求结束若无法找到则会从 Root DNS 根 DNS 服务器中进行寻找。根 DNS 服务器是互联网的 DNS 主心骨它们的工作是根据请求将其重定向到正确的 TLD 顶级域名 服务器上。比如要访问 www.tryhackme.com根 DNS 服务器会将其转给 .com 顶级域名服务器去处理。TLD 服务器保存的是能正确回应 DNS 请求的 Authoritative server 权威服务器的记录。权威服务器也被称为域名的 nameserver (名称服务器)。一个域名通常会有多个名称服务器以便在其中一个出现故障时作为备份。权威 DNS 服务器负责存储特定域名的 DNS record也负责对域名的 DNS record进行更新。根据记录的 record 类型不同DNS record 会被发送回递归 DNS 服务器在那里进行本地缓存以便将来的请求然后再将 DNS record 转发给发起请求的计算机。
HTTP in detail
HTTP (Hypertext transfer protocol)超文本传输协议。它是一套用于与网络服务器通信的规则用于传输网页数据包括 HTML、图像、视频等。
HTTPS (Hypertext transfer protocol secure)是 HTTP 的安全版本。HTTPS 的数据经过加密因此它能阻止别人看到你发送和接受的数据也可以确保你在与正确的网络服务器沟通而不是和冒充的服务器。
Requests responses
当我们访问网站时浏览器需要向网络服务器发起 requests 请求然后服务器再给我们 responses 响应。
但在请求时我们需要告诉浏览器访问这些资源的具体方式和它们所在的地点这就是 URL (Uniform resource locator统一资源定位器) 的作用所在。下图展示了 URL 的所有功能但注意不是所有的请求都会用到这些功能 Scheme它表明用何种协议访问资源如 HTTP、HTTPS、FTPUser有些服务需要认证身份可以在 URL 中输入用户名和密码Host (Domain)我们想访问的域名或 IP 地址Port我们想连接的端口号Path我们想访问的资源名字或位置Query string额外信息位比如 /blog?id1 就表示要访问 /blog 路径且希望获得 id1 的文章。Fragment对请求的实际页面上的某个位置的引用。通常用于内容较长的页面可以直接链接到页面的某一部分。
HTTP methods
HTTP methods 是客户端发起 HTTP 请求时预期的一个操作。HTTP methods 有很多方法但更常见的还是 GET 和 POST 方法。
GET用于从 Web 服务器上获取资源POST用于向 Web 服务器提交数据并可能创建新的记录PUT向 Web服务器提交数据以进行信息更新DELETE从 Web 服务器上删除信息或记录
HTTP status codes
当 Web 服务器响应了我们的 HTTP 请求时它会发送一个 HTTP 响应数据包其中就包含了 status codes 状态码。这些状态码用于告知客户端请求的结果及可能的处理方式一般可以分为五种
1xxinformation response。告知客户端其请求的一部分已被接受接下来应该继续发送请求的其余部分。2xxsuccess。告知客户端请求成功。3xxredirection。告知客户端请求重定向到另一个资源。4xxclient errors。告知客户端请求出现了问题。5xxserver errors。告知客户端服务器在处理请求时出现了问题。
常见的状态码如下表所示
200 - OK请求成功201 - Created资源已创建 例如新用户或新的博文301 - Moved permanently将浏览器重定向到一个新网页或告诉搜索引擎该网页已转移到其他地方302 - Found与 301 类似但不同的是该状态码表示暂时性的更改在不久的将来可能会再次更改400 - Bad request告诉浏览器请求中出现了错误或丢失了某些内容401 - Not authorised未进行身份授权前不允许查看该资源403 - Forbidden无论用户是否登录都没有权限访问该资源404 - Page not found资源不存在405 - Method not allowed资源不允许使用该请求方式请求500 - Internal server error服务器在处理请求时遇到某种错误无法正确处理503 - Service unavailable服务器由于超负荷或正在进行维护无法处理请求
Headers
Headers 信息分为 请求 headers 和 响应 headers。前者通常由客户端发送给 Web 服务器后者是 Web 服务器对于客户端请求的响应。
常见的 请求 headers 包含
Host一些 Web 服务器上会托管多个网站通过该信息可以告诉服务器要访问的网站否则就是访问服务器的默认网站。User-Agent客户端的浏览器软件和版本号告知服务器你使用的浏览器软件有助于它为你的浏览器正确格式化网站。Content-Length向 Web 服务器发送数据时该信息会告诉服务器该请求有多少数据这样服务器能确保不会丢失任何数据。Accept-Encoding告诉 Web 服务器浏览器支持哪些类型的压缩方法以便在互联网上传输数据时将数据压缩得更小。Cookie发送给 Web 服务器以让服务器记住关于用户的信息。
常见的 响应 headers 包含
Set-Cookie每次请求时需要发送回 Web 服务器的要存储的数据。Cache-Control再次请求之前响应内容在浏览器缓存中的存储时间。Content-Type告知客户端返回的数据类型如 HTML、图像、视频等。通过该信息浏览器就能知道如何处理这些数据。Content-Encoding确定了压缩数据的方法。
Cookies
Cookies 是存储在用户电脑上的一小段数据当用户从 Web 服务器上收到 Set-Cookie 头信息时Cookie 就被保存下来了。之后每一次请求都会向 Web 服务器发送这个 Cookie 数据。由于 HTTP 是无状态的所以 Cookie 可以用于提示 Web 服务器用户的身份、用户是否登陆过、用户的个人设置等。 Cookie 示意图 Cookie 可以用于多种目的但最常用于网站验证。Cookie 的值通常不是明文而是不易被人猜到的唯一密文。
How websites work
当我们访问一个网页时浏览器会向 Web 服务器发送请求请求有关我们正在访问的页面的信息。网站由两个主要部分组成
Front end 前端用户侧这是浏览器渲染网站的方式Back end 后端服务器侧处理用户请求并响应
前端页面由 HTML、JavaScript、CSS 三部分组成。HTML 用于构建网站并定义其结构JavaScript 用于实现交互功能CSS 用来让网站更加漂亮。首先简单介绍 HTML。
HTML
HTML 是网站的编程语言元素 也被称为 标签是 HTML 页面的组成部分他告诉浏览器如何显示内容。比如下面就是一段 HTML 代码
!DOCTYPE html !-- 定义页面是 HTML5 文档--
html !-- HTML 页面的根元素 --head !-- 该元素包含有关页面的信息 --titlePage Title/title/headbody !-- 该元素定义 HTML 文档的正文 --h1Example Heading/h1 !-- 大标题元素--pExample paragraph../p !-- 段落元素 --/body
/html
元素也可以包含一些属性比如 class 属性这样可以被用来为元素设计样式。一个元素可以有多个属性每个属性都有自己独特的用途。
元素还可以拥有 唯一的 id属性这是元素的唯一标识。id属性一般用于样式设计和 JavaScript 识别。
JavaScript
JavaScript (JS) 是世界上最流行的编程语言之一可以让网页实现交互如果没有 JS那么网页就不会有互动元素。
JS 添加在页面源代码中用 script 标记也可以通过 src 属性远程包含。
Sensitive data exposure
假如网站没有适当保护终端用户的敏感明文信息时就会发生敏感数据泄露。 如上图所示通过开发者工具查看源代码后发现其中出现了未被删除的敏感信息。这些情况往往是开发人员之前用于测试但后面忘记删除导致。这种敏感数据泄露可能会被攻击者利用扩大攻击面。
因此在进行安全检查时第一步就是查看源代码看看是否有敏感信息泄露的问题。
HTML injection
HTML 注入指页面上显示未经过滤的用户输入时发生的漏洞。如果网站未对用户输入进行消毒和过滤而该输入被用于该页面则攻击者就可以在该网页中注入 HTML 代码。 如上图所示网页并未对用户输入进行任何过滤。假设攻击者构建了一段恶意 HTML 或 JS 代码就会被直接执行。
上图可能还体现不出危害那我们假设这样一个场景网页在登录界面有 HTML 注入漏洞。攻击者可以构造一个恶意的表单提交元素 form这样恶意表单会被执行。后面普通用户使用该表单进行登录时其用户名和密码就被传输给攻击者了。
因此防止 HTML 注入漏洞的规则就是决不相信用户输入。为防止恶意输入开发人员应该在使用用户输入前就对其内容进行过滤消毒。
Putting it all together
根据前面的介绍可以总结出浏览器访问一个网页时它会进行的操作
当我们请求网页时电脑需要知道对应 Web 服务器的 IP 地址。这是需要使用 DNS 来获取。获得 IP 地址后将使用 HTTP 协议与服务器发起对话请求网页资源。服务器收到请求将 HTML、JS、CSS、图像等信息响应回去。浏览器收到这些信息将其正确地格式化显示出来。
Other components
在访问一个网页时涉及到的技术绝对不止上述步骤所提到的。接下来会简要介绍几个可能会存在的技术。
Load balancers
Load balancers负载均衡。当一个网站的流量相当巨大或者服务器要运行一个高可用性的应用程序时一台服务器可能无法胜任。此时就可以架设多个服务器进行负载均衡其一是可以确保高流量网站能处理负载其二是当服务器反应迟钝时可以提供故障切换。 负载均衡在收到请求时会使用不同算法来确定选择哪个服务器处理请求这些算法包括 round-robin (轮询算法将请求依次发送到每个服务器) 和 weighted (加权算法检查服务器当前处理的请求数将请求发送给最不繁忙的服务器)。
负载均衡还会对每台服务器进行定期检查确保它们运行正常这叫做 health check。当服务器响应不当或没有响应负载均衡将停止发送流量直至服务器再次做出适当响应。
CDN
CDN (Content delivery networks)内容分发网络。CDN 允许托管网站上的静态文件到世界各地的服务器上。当用户请求网站时CDN 会计算距离用户最近的服务器物理位置并将请求发送到该服务器上。这有效地减少了网站访问时间。
Databases
数据库用于存储网站中的用户信息Web 服务器可以与数据库通信进而可以存储和调用其中的数据。常见的数据库有 MySQL、MSSQL、MongoDB、Postgres 等。
WAF
WAF (Web application firewall)网络应用防火墙。它位于网络请求到 Web 服务器之间主要目的就是保护 Web 服务器免受黑客攻击或 DDos攻击。它能分析网络请求中常见的攻击技术分析请求是否来自真正的浏览器而不是机器人。 How web servers work
Web server
Web 服务器是一种软件它侦听传入的连接然后利用 HTTP 协议向客户端传送网络内容。常见的 Web 服务器软件有 Apache、Nginx、IIS 和 NodeJS。Web 服务器本质上也是从软件设置中定义的根目录上传输文件。比如我们要请求一张图片实际上 Web 服务器就在本地路径 /var/www/html/picture.jpg (假设是这个路径) 上将该图片传输过去。
Virtual host
虚拟主机。Web 服务器可以托管具有不同域名的多个网站这就是基于 虚拟主机 技术做到的。Web 服务器会检查 HTTP 请求头中的 Host 字段并将其与虚拟主机进行匹配若匹配成功则会提供正确的网站不匹配的话则提供默认网站。
Static dynamic content
静态内容就是永不改变的内容如图片、JS代码、CSS、HTML等。这些文件都是直接从 Web 服务器发送而来不会对其进行任何更改。
动态内容指可以随不同请求而改变的内容。比如博客首页会根据文章热度改变展示的博文博客的搜索页面也会根据不同的搜索词显示不同结果。这些内容的更改都由后端完成我们无法知道后端做了什么。
Scripting backend languages
后端语言可以与数据库交互、调用外部服务、处理用户传入的数据等这些正是网站与用户互动的关键所在。常见后端语言有 PHP、Python、Ruby、NodeJS、Perl 等。
在客户侧是看不到任何的后端语言代码的因为它在后台完成活动。不过虽然看不到后端代码但它们仍然会给 Web 程序带来安全问题。