当前位置: 首页 > news >正文

阿里云虚拟主机做网站wordpress媒体大小

阿里云虚拟主机做网站,wordpress媒体大小,陕西省住房和城乡建设厅综合网站,wordpress好用主题文章目录 导入相应的库正确地设置代码的基础部分设置循环遍历遍历URL保存图片和文档全部代码即详细注释 下面是通过requests库来对ajax页面进行爬取的案例#xff0c;与正常页面不同#xff0c;这里我们获取url的方式也会不同#xff0c;这里我们通过爬取一个简单的ajax小说… 文章目录 导入相应的库正确地设置代码的基础部分设置循环遍历遍历URL保存图片和文档全部代码即详细注释 下面是通过requests库来对ajax页面进行爬取的案例与正常页面不同这里我们获取url的方式也会不同这里我们通过爬取一个简单的ajax小说页面来为大家讲解。注结尾附赠全部代码与详细注释 导入相应的库 爬取数据必须有相应的库这里我们使用爬虫脚本中常用的几个Python库os.path、fake_useragent 和 requests。 1.os.path 这个模块主要用于处理文件和目录的路径。它提供了一系列的功能来进行路径的拼接、拆分、查询等操作以确保路径的跨平台兼容性比如Windows和Unix/Linux系统的路径分隔符不同。在爬虫中os.path 通常用于构建本地文件系统的路径以便保存从网络上下载的图片、文本数据等。 2.fake_useragent 这个库用于生成随机的、看起来像是真实浏览器的User-Agent字符串。User-Agent是一个在HTTP请求中发送给服务器的头部信息它告诉服务器发起请求的客户端通常是浏览器的类型、版本和操作系统等信息。在爬虫中由于许多网站会检查User-Agent来识别爬虫请求并阻止它们因此使用fake_useragent可以帮助爬虫绕过这种简单的反爬虫机制。 3.requests requests是Python中非常流行的HTTP库用于发送HTTP/1.1请求。它提供了一个简单易用的API用于处理各种HTTP请求如GET、POST、PUT、DELETE等。在爬虫中requests库是发送网络请求并获取响应的主要工具。它支持会话Session对象、HTTPS请求、文件上传、Cookie处理、重定向、连接池等功能非常适合用于构建复杂的爬虫系统。 import os.path import fake_useragent import requests 正确地设置代码的基础部分 这里我们生成一个随机的User-Agent、检查并创建目录以便储存爬取的图片、以及打开或创建一个文本文件来保存数据。 import os.path import fake_useragent import requests # 判断是否是直接运行该脚本 if __name__ __main__: head {User-Agent: fake_useragent.UserAgent().random} if not os.path.exists(./biqugePic): os.mkdir(./biqugePic) f open(./biquge.txt, w, encodingutf8) 设置循环遍历 循环遍历URL这里为大家提供具体url的获取方法并循环了1至9页的数据为大家做案例并发送了带有随机User-Agent的GET请求。这是爬虫中常见的做法用于从网站的不同页面获取数据。 for i in range(1, 10): url fhttps://www.bqgui.cc/json?sortid1page{i} resp requests.get(url, headershead) 首先进入网页点击F12打开自定义与控制工具点击fecth/XHR此时显示部分为空白。 这个时候我们滚动鼠标滚轮就会出现相应的url这里的https://www.bqgui.cc/json?sortid1page2其中尾部2表示滚轮页面第二页想要获取1至9我们只需要进行一个简单的循环遍历即可。 遍历URL 遍历从URL获取的JSON响应该响应包含多个项目。对于每个项目您都提取了图片URL、文章名、作者和简介并计划将这些信息打印到控制台以及下载图片和保存文本信息到文件。 for item in resp.json(): # 从每个JSON对象中提取所需的信息 img_url item[url_img] articlename item[articlename] author item[author] intro item[intro] # 打印提取的信息到控制台 print(img_url, author, articlename, intro) # 发送另一个GET请求到图片URL以获取图片内容 img_rest requests.get(img_url, headershead) 保存图片和文档 设置代码来保存图片到以文章名命名的文件中并将作者、文章名和简介信息写入到./biquge.txt文件中。 with open(f./biqugePic/{articlename}.jpg, wb) as fp: # 将图片内容写入文件 fp.write(img_rest.content) # 将作者、文章名和简介信息写入到./biquge.txt文件中 f.write(author # articlename # intro \n)全部代码即详细注释 import os.path import fake_useragent import requests # 判断是否是直接运行该脚本 if __name__ __main__: # 创建一个包含随机User-Agent的HTTP请求头 head {User-Agent: fake_useragent.UserAgent().random} # 检查是否存在名为./biqugePic的文件夹如果不存在则创建它 if not os.path.exists(./biqugePic): os.mkdir(./biqugePic) # 以写入模式打开或创建一个名为./biquge.txt的文件用于保存数据 f open(./biquge.txt, w, encodingutf8) # 循环从第1页到第9页注意range函数是左闭右开的所以不包括10 for i in range(1, 10): # 构造请求URL这里假设每个页面的数据都可以通过此URL以JSON格式获取 url fhttps://www.bqgui.cc/json?sortid1page{i} # 发送GET请求到URL并带上之前创建的请求头 resp requests.get(url, headershead) # 假设服务器返回的是JSON格式的数据我们遍历这些数据 # 注意这里有个潜在的问题因为内部循环的变量也使用了i这会覆盖外层循环的i # 为了避免混淆应该使用另一个变量名比如item for item in resp.json(): # 从每个JSON对象中提取所需的信息 img_url item[url_img] articlename item[articlename] author item[author] intro item[intro] # 打印提取的信息到控制台 print(img_url, author, articlename, intro) # 发送另一个GET请求到图片URL以获取图片内容 img_rest requests.get(img_url, headershead) # 打开或创建一个文件用于保存图片文件名基于文章名 with open(f./biqugePic/{articlename}.jpg, wb) as fp: # 将图片内容写入文件 fp.write(img_rest.content) # 将作者、文章名和简介信息写入到./biquge.txt文件中 f.write(author # articlename # intro \n) 注意 代码假设了服务器返回的JSON结构是固定的并且每个对象都包含’url_img’, ‘articlename’, ‘author’, 和 intro’键。在实际应用中网络请求可能会失败如404、500等HTTP错误应该添加错误处理逻辑。由于网络延迟和带宽限制大量请求可能会导致性能问题或被服务器封锁。使用fake_useragent生成随机User-Agent可以帮助绕过一些简单的反爬虫机制但不一定对所有网站都有效。
http://www.dnsts.com.cn/news/269331.html

相关文章:

  • 网站改版 htmlwordpress文件上传管理
  • wordpress多导航栏湖南seo推广服务
  • 欧美模板网站建设移动版网站模板
  • 贷款网站建设方案深圳网站程序开发制作
  • 天天炫拍免费做相册管方网站下载多站点网站群的建设与管理
  • 网站品牌栏目建设情况网站后台申请邮箱
  • 企业网站颜色除了个性化阶段
  • 邵武网站建设wordpress 注册码
  • 网站建设论坛排名wordpress店铺模板制作教程
  • 国际化网站设计wordpress网站测速
  • 响应式网站开发demo如何建设网站兴田德润简介呢
  • 做会展网站的关键词网站建设的心得与体会
  • 网站类别页面怎么做怎么提升关键词的质量度
  • 不合理的网站合肥大型网站设计公司
  • 莱芜金点子信息港房屋出租宁波seo推广费用
  • 对网站设计的建议展厅设计展览设计公司
  • 自己切片视频做网站晋城市建设局 网站
  • 沈阳世纪兴网站建设设计说明ai
  • 深圳网站建设汤小巧什么学做网站
  • 吉安公司做网站什么是seo网站优化
  • 网站设计原则的历史新宾区网站建设
  • 贵州省建设厅实名认证网站上海外贸仓库
  • 为您服务网站在百度搜不到网站
  • 编制综合网站平台的公司排名php 除了做网站
  • 静态网页制作实验报告林云seo博客
  • 免费建立国外网站福州网站制作有限公司
  • 河池网站制作应用市场app下载安装到手机
  • 做网站会什么制作哪个网站好
  • 湖北省建设网站首页网页版梦幻西游天象攻略
  • 满足seo需求的网站谁知道苏州溪城水处理网站谁做的