可信网站认证必须做吗,快速建立平台网站开发,英文网站的外部链接 建设,免费制作图片带字软件一、爬虫的三个步骤#xff08;要学习的内容#xff09;
1、获取网页内容 #xff08;HTTP请求、Requests库#xff09;
2、解析网页内容 #xff08;HTML网页结构、Beautiful Soup库#xff09;
3、存储或分析数据 b站学习链接#xff1a;
【【Python爬虫】爆肝两…一、爬虫的三个步骤要学习的内容
1、获取网页内容 HTTP请求、Requests库
2、解析网页内容 HTML网页结构、Beautiful Soup库
3、存储或分析数据 b站学习链接
【【Python爬虫】爆肝两个月拜托三连了这绝对是全B站最用心没有之一的Python爬虫公开课程从入门到不入狱 】 https://www.bilibili.co/video/BV1d54y1g7db/?share_sourcecopy_webvd_source7e5d8bc8e5429bc3a99a6b8e86b901f8 二、HTTP
1、什么是HTTP
http: Hypertext Transfer Protocol超文本传输协议 客户端和服务器之间的请求-响应协议
eg: 浏览器可看作一个服务端在浏览器中输入网址
浏览器就会向运行该网站的服务器发送请求
然后等待服务器返回给浏览器响应
2、HTTP的两种请求方法
1、GET获得数据
大部分用get
2、POST创建数据
3、HTTP请求的组成结构
1请求行
POST / user / info ? new_usertrue HTTP / 1.1
方法类型 资源路径?查询参数 HTTP的协议版本
资源路径指明要访问服务器的哪个资源
查询参数写在后面传递给服务器额外的信息不同信息之间用分隔
eg: www.douban.com / movie /top250 start75filterunwatched 主机域名 资源路径查询参数 网址 2请求头
Host: www.douban.com 主机域名 User-Agent: curl /7.77.0 用来告知服务器客户端的相关信息
请求是什么东西发出来的以及这个东西的版本
eg: curl / 7.77.0curl命令行工具发出的) python-requests / 2.25.1 python的requests库发出的 Accept: */* 告诉服务器客户端想接收的响应数据的类型
eg: 接受HTMLtext / html 接受HTML和JOSNtext / html, application / json 多种类型用逗号分隔开 接受任意类型*/* 3请求体客户端传给服务器的其他任意数据
GET的请求体一般是空的
{username:西瓜大侠,
email:3380958706qq.com} 简言之HTTP请求由三部分组成
请求行用什么方法查询什么资源 HTTP的版本
请求头主机域名 客户端是什么及其版本 客户端想接受的响应类型 where who what 服务器在哪儿 客户端是谁 客户端想要什么)
请求体客户端的其他数据 4、HTTP响应的组成结构
1状态行
HTTP / 1.1 200 OK
协议版本 状态码 状态消息
状态码和状态消息相对应 2开头表示请求成功
3开头表示重定向需要进一步的操作
4开头表示客户端错误请求不能被理解、请求未授权或404请求的资源不存在...
5开头表示服务器错误出现问题或正在维护
2响应头包含一些告知客户端的信息
Date: Fri, 27 Jan 2023 02:10:48 GMT 生成相应的日期和时间
Content-Type: text/html; charsetutf-8 返回内容的类型及编码格式
3响应体服务器想给客户端的数据内容