当前位置: 首页 > news >正文

网站运营策略汉中建设工程招标新闻中心

网站运营策略,汉中建设工程招标新闻中心,wordpress制作模板,免费的照片编辑软件scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面#xff0c; js 加载的话#xff0c;如果你无法模拟它的 API 请求#xff0c;可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面 js 加载的话如果你无法模拟它的 API 请求可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 import scrapyclass BlogSpider(scrapy.Spider):name blogspiderstart_urls [https://www.zyte.com/blog/]def parse(self, response):for title in response.css(.oxy-post-title):# 返回对象yield {title: title.css(::text).get()}for next_page in response.css(a.next):# 返回一个连接爬虫框架会继续请求这个连接得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)运行 scrapy runspider myspider.py代码中通过 main 方式运行调试 # _*_ coding: utf-8 _*_ import os, sys, pprint from scrapy.cmdline import executedef build_base_config():current_dir_path os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name) # 入口文件 与模块查找路径、import 相对路径导入有影响print(\n当前路径 PATH:, current_dir_path)# pprint.pprint(sys.path)filepath, file_name os.path.split(current_dir_path)spiders_name file_namespiders_name bestbuy_new_careturn current_dir_path, spiders_namedef run_product_review():运行产品评论current_dir_path, spiders_name build_base_config()# 结果输出到本地 json 文件execute([scrapy, crawl, spiders_name -products_review,f-o{current_dir_path}/temp/product-review.json,-LDEBUG,f-apath{current_dir_path}/temp/review-links.json,-acollect_exist1])if __name__ __main__:run_product_review()pass简单说使用了 scrapy.cmdline 提供的工具执行的命令和在命令行中的一致只是这种方式可以在 idea 工具中进行 debug 调试 入门和实际开发的不同之处 开发上 a.入门例子相对简单工程结构也不怎么注重 b.生产相对复杂在核心开发上差不多也是如何去解析 html 结构工程结构上为了调度和复用可能会更复杂一点调度平台 a.有使用一些开源的调度平台因为是通用 b.还有的可能会再开源的调度平台上再包装一层自己的调度平台仅用来展示符合产品经理的设计 官方对于动态内容的引导 https://docs.scrapy.org/en/latest/topics/dynamic-content.html 个人感觉这里提供的知识点还是非常具有参考价值的简单总结 使用 scrapy shell 工具定位数据源 $ scrapy shell quotes.toscrape.com/scroll (...)view(response)使用 scrapy fetch 工具获取响应到文件这类似与查看网页源代码 scrapy fetch --nolog https://example.com response.html复制请求在浏览器中可以将请求复制为 curl 格式然后可以使用 form_curl() 来使用 from scrapy import Requestrequest Request.from_curl(curl https://quotes.toscrape.com/api/quotes?page1 -H User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0 -H Accept: */* -H Accept-Language: ca,en-US;q0.7,en;q0.3 --compressed -H X-Requested-With: XMLHttpRequest -H Proxy-Authorization: Basic QFRLLTAzMzEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MWI0LWJlZGYtMmM0YjgzZmI0MGY0 -H Connection: keep-alive -H Referer: http://quotes.toscrape.com/scroll -H Cache-Control: max-age0)解析 JavaScript 代码html 中有些网站会出现 script中间是大段的 json 数据有可能是变量也有可能是初始化数据之类的/script就可以使用 比如是 var data {field: value};可以使用如下的方式匹配 pattern r\bvar\sdata\s*\s*(\{.*?\})\s*;\s*\n json_data response.css(script::text).re_first(pattern) json.loads(json_data) {field: value}
http://www.dnsts.com.cn/news/74143.html

相关文章:

  • 县总工会网站建设情况蚌埠市建设银行网站
  • php网站开发wamp百度怎么做自己网站
  • 成品网站的安装教程在谷歌上做外贸网站有用吗
  • 淘宝客优惠卷网站模板青岛网站建设策划
  • 鲜花网站开发毕业设计编程必背100个代码
  • php 大型网站开发教程网站开发部门叫什么
  • 好的网站页面中企动力邮箱网页版
  • 如何在自己电脑上搭建网站网站建设优惠券
  • 做网站的教程视频想找工作去哪个网站
  • 个性化网站定制郑州惠济区建设局网站
  • 公司网站建设会计处理10大品牌网
  • 秦皇岛做网站优化第四性 wordpress
  • 用网站嘉兴专业网站排名推广
  • 百度商桥接入网站小公司网络组建
  • 成都网站建设服务有什么免费社区建站系统
  • 网站负责人半身照虚拟主机怎么设计网站吗
  • 在网站里文本链接怎么做代理公司注册价格
  • 呼和浩特做网站的地方wordpress文章模板如何修改
  • 网站缺陷和优化的例子长洲网站建设
  • 手机网站开发教程pdf网站首页设计注意
  • 搭建一个网站的步骤天津网络关键词排名
  • 哈尔滨百度网站排名房屋设计公司品牌排行
  • 怎么做网站seo优化网站建设从初级到精通
  • hui怎么做网站缪斯设计公司官网
  • 网站引导页动态效果怎么做wordpress登录循环
  • wordpress添加站点wordpress 转 帝国
  • 常州网站建设公司市场《语文建设》网站
  • 选择网站建设公司好网站建设费属于宣传费吗
  • 如何做黑客攻击网站支持付费下载系统的网站模板或建站软件
  • 高端家具东莞网站建设技术支持wordpress 手赚主题