定制网站开发介绍图,精品网站制作,网络服务商主要包括什么,单人网站制作文章目录 #x1f354;准备工作#x1f339;BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档#x1f386;获取特定标签的特定内容 #x1f339;查找标签#x1f388;在文档查找标签 find_all#x1f388;正则表达式搜索 #x… 文章目录 准备工作BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档获取特定标签的特定内容 查找标签在文档查找标签 find_all正则表达式搜索 查找参数文本(text)参数limit参数通过标签来查找 select通过类名来查找通过id来查找 准备工作
我们运行下面的代码爬取一下百度网站
import urllib.requesturl https://www.baidu.com
headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36
}
req urllib.request.Request(urlurl, headersheaders)
reponse urllib.request.urlopen(req)
print(reponse.read().decode(utf-8))
创建一个file后缀为html把爬取的代码粘贴过去
BeautifulSoup()
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库。它提供了一种简单而灵活的方式帮助开发者从网页中提取所需的数据
使用 BeautifulSoup你可以将 HTML 或 XML 文档加载到解析树中并使用类似于 DOM文档对象模型的方式来遍历和搜索文档的结构。然后你可以使用各种方法和属性来定位、提取和操作文档中的元素和数据。
以下是 BeautifulSoup 的一些常见用途
解析和提取数据通过加载 HTML 或 XML 文档BeautifulSoup 可以帮助你轻松地提取出所需的数据。你可以使用 CSS 选择器或类似于字典的属性访问方式来定位元素并获取其文本内容、属性值等。数据清洗和转换BeautifulSoup 提供了诸多方法来处理解析树中的元素和数据。你可以删除、替换或修改特定的标签、属性也可以对文本内容进行处理如去除空白字符、标准化格式等。网页爬虫在网络爬虫中你可以使用 BeautifulSoup 来解析抓取到的网页内容提取出需要的数据如标题、链接、图像等。它可以帮助你处理网页中的复杂结构并提供便捷的 API 进行数据提取和处理。数据可视化和分析BeautifulSoup 可以与其他数据处理和可视化库如 Pandas、Matplotlib结合使用进一步分析和展示提取到的数据。你可以将数据转换为数据框架、绘制图表或进行其他分析操作。
总的来说BeautifulSoup 是一个功能强大且易于使用的工具用于解析和处理 HTML、XML 等文档并从中提取所需的数据。它在数据爬取、数据清洗和转换等领域都有广泛的应用。
⭐代码实现
from bs4 import BeautifulSoupfile open(./baidu.html,rb)
htmlfile.read()# 解析的是html文件
# 解析器是html.parser
bsBeautifulSoup(html,html.parser)print(bs.title)
运行后发现 运行结果提取出了title 同理
✨打印标签里面的内容
print(bs.title.string) ✨快速拿到一个标签里的属性
print(bs.a.attrs) ✨打印整个文档
print(bs) 获取特定标签的特定内容
print(bs.head.contents[1]) 查找标签
在文档查找标签 find_all
查找标签 搜索到的仅仅是那一种标签
t_listbs.find_all(span) 把所有的 某个标签 放到列表里面
正则表达式搜索
需要引入库
import re搜索出来的是包含 某个标签 的 我们查找a标签head标签里面有a这个 字母所以被选出来了 由于link标签里面的链接中有a字母所以link标签也被选出来了
查找参数
比如下面这种
文本(text)参数 limit参数
限制获取到的个数
通过标签来查找 select 通过类名来查找 通过id来查找