当前位置: 首页 > news >正文

科技股广东企业网站seo哪家好

科技股,广东企业网站seo哪家好,wordpress整站程序,flashfxp 发布网站题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据#xff0c;需要访问大量的网页才能够完成任务。 这里有一个网站#xff0c;还是求所有数字的和#xff0c;只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据需要访问大量的网页才能够完成任务。 这里有一个网站还是求所有数字的和只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import requests import reurl http://www.glidedsky.com/level/web/crawler-basic-2headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }res 0 for i in range(1, 1001):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)for n in n_list:res int(n)print(fResult: {res})使用多线程实现更快爬取 import requests import re import threadingurl http://www.glidedsky.com/level/web/crawler-basic-2 total_threads 10 # 设置线程数量 lock threading.Lock() # 创建一个锁用于线程间的数据同步 res 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)with lock:for n in n_list:res int(n)threads [] headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }# 创建并启动线程 for i in range(total_threads):thread threading.Thread(targetworker, args(i,))thread.start()threads.append(thread)# 等待所有线程执行完成 for thread in threads:thread.join()print(fResult: {res})使用异步函数 import aiohttp import asyncio import reurl http://www.glidedsky.com/level/web/crawler-basic-2 total_requests 1000 # 总共地请求次数 concurrent_requests 10 # 同时并发的请求数量 res 0headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }async def fetch_url(session, temp_url):async with session.get(temp_url, headersheaders) as response:html await response.text()pattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks []for i in range(1, total_requests 1):temp_url url ?page str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) concurrent_requests or i total_requests:results await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres ntasks []loop asyncio.get_event_loop() loop.run_until_complete(main())print(fResult: {res})时间统计同步的方式大概80s多线程和异步时间差不多都是20s左右
http://www.dnsts.com.cn/news/23393.html

相关文章:

  • 沈阳做网站最好的公司有哪些wordpress admin init
  • wordpress orgseo流量软件
  • 婚礼策划网站模仿的网站做一样违法吗
  • 网站开发作业代做刷关键词排名软件有用吗
  • 在线考试系统网站开发企业静态网站需要备案吗
  • 中核待遇那么好为什么去的人少网络优化需要用到的工具
  • wordpress自助建站系统丹阳网站建设价格
  • 一些做系统的网站电子商务网站建设报告
  • seo网站设计招聘电子商务网站建设素材
  • 帮人家做网站怎么赚钱微网站的建设模板有哪些
  • 网站电脑培训班附近有吗网站建设的岗位职责
  • 学做面食最好的网站成品网站1688入口
  • 一流的网站建设流程图wordpress广告产检
  • 微商城建设购物网站网站开发系统需求说明书
  • 设计类网站模板常用的网页编辑工具有哪些
  • 物联网型网站开发html个人网页设计代码
  • 石家庄市桥西区建设局网站天津网站建设信息
  • 网站建设及优化心得体会深圳南山做网站
  • 海口有做棋牌娱乐网站的吗湖南常德高铁最新消息
  • 做网站公司有哪些网站建设消费调查问卷
  • php网站开发思路应用公园是收费还是免费的
  • 营销网站设计与规划方案网站部署到终端机怎么做
  • 微网站搭建流程重庆建网
  • 西安做网站好的公司地区网站建设
  • 邢台网站建设哪儿好怎么在自己的网站做淘宝客
  • 互动网站策划电商网站公司
  • 北京大兴企业网站建设哪家好昆明网站快速优化排名
  • 本地的唐山网站建设搜索引擎优化基本
  • 许昌住房建设局网站wordpress网站建设要钱吗
  • 赣州网站建设精英做动态图片的网站