当前位置: 首页 > news >正文

松原公司做网站Wordpress百万数据查询多久

松原公司做网站,Wordpress百万数据查询多久,微信公众号登录平台入口官网,南昌网站建设推广专家爬取网页数据#xff08;获取网页信息全过程#xff09; 1、爬取豆瓣电影的电影名称、导演、主演、年份、国家、评价 2、首先我们先爬取页面然后再获取信息 1、爬取网页源码 import requests from lxml import etree if __name__ __main__:#UA伪装head{User-Agent:Mozilla/… 爬取网页数据获取网页信息全过程 1、爬取豆瓣电影的电影名称、导演、主演、年份、国家、评价 2、首先我们先爬取页面然后再获取信息 1、爬取网页源码 import requests from lxml import etree if __name__ __main__:#UA伪装head{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0}#获取urlurlhttps://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.css#发送请求responserequests.get(url,headershead)#返回数据类型cont_textresponse.text# print(cont_text)#打印数据用于查看是否爬取成功 上述代码即表示爬取了豆瓣电影那一页的网页源码 2、下面将去找想爬取的数据所在标签的位置 因为要爬取一整页面所有的电影而不是单个电影信息所以需要找到该组电影标签的主标签如下部分即可发现将鼠标移到每个li标签下都会对应左边的每个单独的电影 所以我们就可以通过for循环定位到每个li标签下然后在爬取每个li标签内的电影数据 找到所有的li标签后在上一级去找有没有单独的属性class或者id如果找到一个class内容复制class对应属性的内容长按CtrlF打开查找看看是否是在总标签下是否是唯一的这样可以避免去数每一个标签在什么位置 如上图可发现上述的class对应的属性“grid_view”是独一无二的那么可以直接通过多层地址直接到达这个标签 3、实操代码         通过以下代码即可获取到所有的电影名称其中的div[2]表示这个div标签是在当前的上一级标签下是第2个标签//表示属性定位直接定位到当前目录./表示在当前目录下/表示下一级目录 import requests from lxml import etree if __name__ __main__:#UA伪装head{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0}#获取url# urlhttps://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.cssurl https://movie.douban.com/top250#发送请求responserequests.get(url,headershead)#返回数据类型cont_textresponse.text# print(cont_text)#打印数据用于查看是否爬取成功#解析数据treeetree.HTML(cont_text)#获取单个电影所对应标签的主标签# lsttree.xpath(//ol[classgrid_view]/li)#即打印所有li标签下的内容ls1 tree.xpath(//ol[classgrid_view]/li)# print(ls1)for li in ls1: #通过循环遍历所有的li标签即所有的电影数据name_bookli.xpath(./div/div[2]/div[1]/a/span[]/text()) #通过text打印数据print(name_book)其打印结果为 4、返回结果处理 xpath返回的是列表里面有很多不需要的符号所以需要再对name_bookli.xpath(./div/div[2]/div[1]/a/span[1]/text())这段代码在做处理首先通过join函数去除括号name_book.join(li.xpath(./div/div[2]/div[1]/a/span[1]/text())) 打印结果为 这就是我们需要的电影名字内容下面将获取导演、、数据通过下列代码获取这些信息 strs .join(li.xpath(.//div[classbd]/p[1]/text()))print(strs) 其输出结果为下列内容 但是有很多空格同样需要对它进行处理可以使用strip函数去除左右两边的空格 strs .join(li.xpath(.//div[classbd]/p[1]/text())).strip()print(strs) 但是我们需要的是单独的导演、主演、时间、国家、、这些是一个完整的字符串所以需要额外把这些字符串取出来进行额外处理得到分开的单独数据 比如取出第一段字符那么首先可以发现有很多空格所以使用strip去除然后调用正则化去处理这段数据代码如下其中分别取出时间、国家、导演、主演、剧情 import re strs导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...1994 / 美国 / 犯罪 剧情 #中文的正则取值[\u4e00-\u9fa5] astrs.strip() #去除左右空格 time_filmre.match(r([\s\S]?)(\d)([\s\S]?),a).group(2) #利用正则的分组关系去除第二组内容即(\d)数字的内容即时间 country.join(a.split(/)[-2].split()) #利用/符号切割这个完整字符串然后取出倒数第二个数据即国家的数据 juqing.join(a.split(/)[-1].split())#利用/符号切割这个完整字符串然后取出倒数第一个数据即剧情的数据 daoyanre.match(r导演: ([A-Za-z\u4e00-\u9fa5·])(\s\S*?),a).group(1) #使用中文的正则表达式得到导演主演的数据 zhuyanre.match(r([\s\S]?)主演: ([A-Za-z\u4e00-\u9fa5·])([\s\S]?),a).group(2) print(time_film) print(country) print(juqing) print(daoyan) print(zhuyan) 其输出结果如下 即将那一大串字符串全部处理成了独立的我们需要的数据然后只要把这些代码放入爬虫的那一部分即可 import re import requests from lxml import etree if __name__ __main__:#UA伪装head{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0}#获取url# urlhttps://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.cssurl https://movie.douban.com/top250#发送请求responserequests.get(url,headershead)#返回数据类型cont_textresponse.text# print(cont_text)#打印数据用于查看是否爬取成功#解析数据treeetree.HTML(cont_text)#获取单个电影所对应标签的主标签# lsttree.xpath(//ol[classgrid_view]/li)#即打印所有li标签下的内容ls1 tree.xpath(//ol[classgrid_view]/li)# print(ls1)for li in ls1: #通过循环遍历所有的li标签即所有的电影数据name_book.join(li.xpath(./div/div[2]/div[1]/a/span[1]/text())) #通过text打印数据# print(name_book)strs .join(li.xpath(.//div[classbd]/p[1]/text())).strip()# print(strs)a strs.strip()time_film re.match(r([\s\S]?)(\d)([\s\S]?), a).group(2)country .join(a.split(/)[-2].split())juqing .join(a.split(/)[-1].split())daoyan re.match(r导演: ([A-Za-z\u4e00-\u9fa5·])(\s\S*?), a).group(1)zhuyan re.match(r([\s\S]?)主演: ([A-Za-z\u4e00-\u9fa5·])([\s\S]?), a).group(2)print(time_film)print(country)print(juqing)print(daoyan)print(zhuyan) 其得到的结果如下可以发现其结果有错误 如下图可以发现这部电影没有主演只有一个主字那么就说明我们的正则有缺陷但是我们也可以跳过这一个电影因为在大批量的电影中总会有那么一个两个不一样的区别不能将所有的数据都拿出来额外在做正则这样也不切实际所以我们可以使用try语句去判断一下然后跳过这一步电影的数据 5、完整代码如下 import re import requests from lxml import etree if __name__ __main__:fpopen(./douban_film.txt,w,encodingutf-8) #创建一个文件用来存放电影数据#UA伪装head{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0}#获取url# urlhttps://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.cssurl https://movie.douban.com/top250#发送请求responserequests.get(url,headershead)#返回数据类型cont_textresponse.text# print(cont_text)#打印数据用于查看是否爬取成功#解析数据treeetree.HTML(cont_text)#获取单个电影所对应标签的主标签# lsttree.xpath(//ol[classgrid_view]/li)#即打印所有li标签下的内容ls1 tree.xpath(//ol[classgrid_view]/li)# print(ls1)for li in ls1: #通过循环遍历所有的li标签即所有的电影数据name_book.join(li.xpath(./div/div[2]/div[1]/a/span[1]/text())) #通过text打印数据# print(name_book)strs .join(li.xpath(.//div[classbd]/p[1]/text())).strip()# print(strs)a strs.strip()time_film re.match(r([\s\S]?)(\d)([\s\S]?), a).group(2)try:country .join(a.split(/)[-2].split())juqing .join(a.split(/)[-1].split())daoyan re.match(r导演: ([A-Za-z\u4e00-\u9fa5·])(\s\S*?), a).group(1)zhuyan re.match(r([\s\S]?)主演: ([A-Za-z\u4e00-\u9fa5·])([\s\S]?), a).group(2)except Exception as e:passprint(name_book#time_film#daoyan#zhuyan#country#juqing\n)#讲捕获的数据全部写入文件内fp.write( name_book # time_film # daoyan # zhuyan # country # juqing \n)fp.close() 左侧发现存放所创建的文本文件打开后可得到存进去的数据
http://www.dnsts.com.cn/news/172598.html

相关文章:

  • wordpress吗班级优化大师免费下载app
  • 关于服装店网站建设的策划方案快速建设网站视频
  • 哪里有门户网站开发app设计公司
  • Wordpress屏蔽国内iip石家庄网站快速优化排名
  • 做炒作的网站app制作费用多少钱
  • 微信 网站应用开发天眼查企业信用查询
  • 无锡企业网站的建设产品软文是什么
  • 好用的免费网站net网站开发
  • 做网站链接怎么弄wordpress 更改密码
  • 小米的网站是哪个公司做的中小企业网站建设公司
  • 用dw做的网页怎么连到网站上企业的vi设计系统
  • 服务好的专业建站公司seo短视频网页入口引流
  • 网站的请求服务做优先级事业单位网站开发工作规程
  • 微信网站怎么做的好新公司怎么建立自己的网站
  • 郑州市建设路第二小学网站建设工程合同包括三种
  • 网站qq访客 原理vue大型网站怎么做路由
  • 网站建设工作室门头网站页面设计要求
  • 做网站推广需要具备哪些条件做网站外国的服务器
  • 多语言企业网站建设技术开发包括哪些内容
  • 做网站后端需要学什么wordpress双数据库
  • 产品展示的手机网站在线制作图片模板
  • 域名跟空间都有了怎么做网站网站直播间怎么做
  • 淘宝客返利网站开发山东网站建设模板制作
  • 网站毕业设计任务书银川软件开发公司
  • HTML网站建设课程网站建设项目背景
  • 网站站内推广计划书素材天下免费素材网
  • 台前网站建设费用wordpress启动慢
  • 如何判断网站是用织梦做的专门做家具网站
  • 渌口区市政建设局网站怎么查看自己网站有没有做301
  • 德阳网站开发wordpress设计模式