专业做二手房的网站有哪些,厦门网站建设哪家专业,企业建网站需要准备哪些资料呢,中国制造网介绍文章目录 一、爬虫基本原理1、什么是爬虫2、爬虫的分类3、网址的构成4、爬虫的基本步骤5、动态【异步】页面和静态【同步】页面6、请求头 二、requests基本原理及使用1、chrome 抓包按钮详解1.1 Elements1.2 元素定位器1.3 Network1.4 All1.5 XHR1.6 Preserve log1.7 手机模式1… 文章目录 一、爬虫基本原理1、什么是爬虫2、爬虫的分类3、网址的构成4、爬虫的基本步骤5、动态【异步】页面和静态【同步】页面6、请求头 二、requests基本原理及使用1、chrome 抓包按钮详解1.1 Elements1.2 元素定位器1.3 Network1.4 All1.5 XHR1.6 Preserve log1.7 手机模式1.8 清空数据包1.9 Filter1.10 Search1.11 Search all file 2、requests介绍2.1 概念2.2 安装方式2.3 基本使用2.4 response类对应的方法2.4.1 获取网页源代码:2.4.2 获取二进制数据【音乐视频图片】2.4.3 获取响应状态码【基本不用】2.4.4 获取json数据【常用】 2.5 headers的请求 一、爬虫基本原理
1、什么是爬虫
通俗: 解放人的双手, 去互联网获取数据, 保存数据[数据库, txt, excel, csv, pdf, 压缩文件, image, video, music]
本质: 模拟浏览器, 向服务器发送网络请求, 接受服务器返回的数据, 保存数据
2、爬虫的分类
A、通用爬虫: 百度, google, 搜狗 … 搜索引擎 B、聚焦爬虫: 根据指定的目标, 获取数据, 保存数据
3、网址的构成
例如https://www.baidu.com/s?ieutf-8f8rsv_bp1tnbaiduwd李智恩 A、协议部分https / http – 超文本传输协议 B、域名部分www.baidu.com – ip地址–外壳–域名【方便人的记忆】 C、路径部分一层一层的信息 D、参数部分请求时候, 携带必要参数 – 符号链接
4、爬虫的基本步骤
A、准备网址 B、请求网址 C、解析数据 D、保存数据
5、动态【异步】页面和静态【同步】页面
A、打开浏览器 B、访问网址 C、网页空白处右键点击查看网页源代码 D、在网页源代码中搜索网页所展示的部分(如果能搜到则是静态网页如果搜不到则是动态网页)
6、请求头
A、cookies: 身份标识(登录网站之后会有一段cookies值) B、反爬字段: referer – 来源于哪个网站 C、浏览器标识: user-agent(用户代理)
二、requests基本原理及使用
1、chrome 抓包按钮详解
1.1 Elements
网页源代码展示
1.2 元素定位器
使用元素定位器可以准确定位网页所展示的部分对应的前端代码
1.3 Network
网络调试台可以用于抓包
1.4 All
使用All抓包时会显示所有的包
1.5 XHR
使用XHR抓包时只会显示AJAX包也称为动态数据包一般用于抓取动态加载的数据
1.6 Preserve log
是否需要保存历史抓包记录点亮后即为保存历史记录
1.7 手机模式
是否选择手机模式进行页面访问一般用于手机抓包
1.8 清空数据包
将当前数据包进行清空方便更准确的抓取数据包
1.9 Filter
过滤查询requests_headers
1.10 Search
搜索文本内容所在的包
1.11 Search all file
搜索文本内容所在的包
2、requests介绍
2.1 概念
非常强大的爬虫请求库, 解决日常90%爬虫
2.2 安装方式
pip install requests
2.3 基本使用
导包: import requests使用: respone requests.get(url, 反爬请求头)
2.4 response类对应的方法
2.4.1 获取网页源代码:
A、text B、content.decode()
2.4.2 获取二进制数据【音乐视频图片】
content
2.4.3 获取响应状态码【基本不用】
response.status_code 200: 请求成功
2.4.4 获取json数据【常用】
网站数据很多都是json数据, 做一件事情: json -- 字典
A、response requests.get(url).textresponse json.loads(response)B、response requests.get(url).json()2.5 headers的请求
headers请求头的作用是对爬虫进行伪装headers的格式是字典示例如下
headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36}其中添加的请求头参数个数可以根据实际需求添加