当前位置: 首页 > news >正文

泊头建网站wordpress分类样式

泊头建网站,wordpress分类样式,wordpress 内存占用,学科网站建设管理响应有两种#xff1a;JSON数据和HTML页面#xff0c;对于后者就需要进行解析HTML Documen得到我们需要的信息。 ① xpath使用 可以提前安装xpath插件#xff0c;也可以自己从HTML源码解析。 #xff08;1#xff09;打开chrome浏览器 #xff08;2#xff09;点击右…响应有两种JSON数据和HTML页面对于后者就需要进行解析HTML Documen得到我们需要的信息。 ① xpath使用 可以提前安装xpath插件也可以自己从HTML源码解析。 1打开chrome浏览器 2点击右上角小圆点 3更多工具 4扩展程序 5拖拽xpath插件到扩展程序中 6如果crx文件失效需要将后缀修改zip 7再次拖拽 8关闭浏览器重新打开 9ctrl shift x 10出现小黑框1.安装lxml库 pip install lxml ‐i https://pypi.douban.com/simple2.导入lxml.etree from lxml import etree3.etree.parse() 解析本地文件得到HTML Document html_tree etree.parse(XX.html)4.etree.HTML() 服务器响应文件得到HTML Document html_tree etree.HTML(response.read().decode(utf‐8)5.html_tree.xpath(xpath路径)解析目标信息 ② 基本语法 xpath基本语法 1.路径查询 //查找所有子孙节点不考虑层级关系 / 找直接子节点2.谓词查询 //div[id] //div[idmaincontent]3.属性查询 //class4.模糊查询 //div[contains(id, he)] //div[starts‐with(id, he)]5.内容查询 //div/h1/text()6.逻辑运算 //div[idhead and classs_down] //title | //price③ xpath使用案例 查找ul下面的li # li_list tree.xpath(//body/ul/li) 查找所有有id的属性的li标签 # text()获取标签中的内容 # li_list tree.xpath(//ul/li[id]/text())找到id为l1的li标签 注意引号的问题 # li_list tree.xpath(//ul/li[idl1]/text()) 查找到id为l1的li标签的class的属性值 # li tree.xpath(//ul/li[idl1]/class) 查询id中包含l的li标签 # li_list tree.xpath(//ul/li[contains(id,l)]/text())查询id的值以l开头的li标签 # li_list tree.xpath(//ul/li[starts-with(id,c)]/text()) 查询id为l1和class为c1的 # li_list tree.xpath(//ul/li[idl1 and classc1]/text())li_list tree.xpath(//ul/li[idl1]/text() | //ul/li[idl2]/text())# 判断列表的长度 print(li_list) print(len(li_list))④ 爬取站长素材情侣图片案例 # (1) 请求对象的定制 # 2获取网页的源码 # 3下载 # 需求 下载的前十页的图片 # https://sc.chinaz.com/tupian/qinglvtupian.html 1 # https://sc.chinaz.com/tupian/qinglvtupian_page.htmlimport urllib.request from lxml import etreedef create_request(page):if(page 1):url https://sc.chinaz.com/tupian/qinglvtupian.htmlelse:url https://sc.chinaz.com/tupian/qinglvtupian_ str(page) .htmlheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36,}request urllib.request.Request(url url, headers headers)return requestdef get_content(request):response urllib.request.urlopen(request)content response.read().decode(utf-8)return contentdef down_load(content): # 下载图片# urllib.request.urlretrieve(图片地址,文件的名字)tree etree.HTML(content)name_list tree.xpath(//div[classtupian-list com-img-txt-list]//img/alt)# 一般设计图片的网站都会进行懒加载src_list tree.xpath(//div[classtupian-list com-img-txt-list]//img/data-original)for i in range(len(name_list)):name name_list[i]src src_list[i]url https: srcurllib.request.urlretrieve(urlurl,filename./loveImg/ name .jpg)if __name__ __main__:start_page int(input(请输入起始页码))end_page int(input(请输入结束页码))for page in range(start_page,end_page1):# (1) 请求对象的定制request create_request(page)# 2获取网页的源码content get_content(request)# 3下载down_load(content)
http://www.dnsts.com.cn/news/145260.html

相关文章:

  • 高校网站开发新乡seo网络推广费用
  • 如何查看网站推广做的好惠东网站设计
  • 东营机关建设网站网络营销推广方法选择
  • 一个网站能放多少关键词企业官网网页设计报价
  • 个人网站建设方案策划wordpress装饰插件
  • 郑州网站建设哪家最好网站建设不能持续消费?
  • asp 公司网站源码网站建设中图片是什么
  • 义务教育标准化建设网站小清新文章网站
  • 网站源码建站视频全屋定制十大名牌排行最新
  • 建设银行网站怎么下载地址网站内页没有排名
  • 网站jquery上传源代码自动优化网站建设咨询
  • 云南建设厅网站备案厂家寿光市建设局网站
  • 攻击网站步骤大学生网站建设与网页设计报告
  • 重庆电视台新闻频道百度网站优化排行
  • 瑞安市网站建设网站负责人备案采集照具体要求
  • 上饶专业企业网站建设网站制作是不是要先用ps做
  • 网站方案编写网站代码如何优化
  • 青岛市崂山区建设局网站网站建设的具体过程
  • 北京门户网站设计天津企业seo
  • 我想来做外贸网站来推广泰州网站快速排名优化
  • 谷歌云宝塔搭建WordPress济南网站搜索优化
  • 网站建设中企动力最佳a5网站开发课程设计培训
  • 网站每年多少钱深圳app开发怎么选
  • 工业智能科技网站设计seo是什么技术
  • 检测网站安全怎么开公司
  • 建设网站的工作总结网页制作app
  • 简洁大气的企业网站电子商务网站开发与设计
  • 科技部网站改版方案wordpress frame
  • 网站建设ppt方案结语wordpress主题the 7特点
  • 株洲网站建设优化企业保山网站建设多少钱