当前位置: 首页 > news >正文

大型网站建设托管服务谷歌广告上海有限公司

大型网站建设托管服务,谷歌广告上海有限公司,网站建设要注意哪些事情,推广普通话的意义scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面#xff0c; js 加载的话#xff0c;如果你无法模拟它的 API 请求#xff0c;可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面 js 加载的话如果你无法模拟它的 API 请求可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 import scrapyclass BlogSpider(scrapy.Spider):name blogspiderstart_urls [https://www.zyte.com/blog/]def parse(self, response):for title in response.css(.oxy-post-title):# 返回对象yield {title: title.css(::text).get()}for next_page in response.css(a.next):# 返回一个连接爬虫框架会继续请求这个连接得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)运行 scrapy runspider myspider.py代码中通过 main 方式运行调试 # _*_ coding: utf-8 _*_ import os, sys, pprint from scrapy.cmdline import executedef build_base_config():current_dir_path os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name) # 入口文件 与模块查找路径、import 相对路径导入有影响print(\n当前路径 PATH:, current_dir_path)# pprint.pprint(sys.path)filepath, file_name os.path.split(current_dir_path)spiders_name file_namespiders_name bestbuy_new_careturn current_dir_path, spiders_namedef run_product_review():运行产品评论current_dir_path, spiders_name build_base_config()# 结果输出到本地 json 文件execute([scrapy, crawl, spiders_name -products_review,f-o{current_dir_path}/temp/product-review.json,-LDEBUG,f-apath{current_dir_path}/temp/review-links.json,-acollect_exist1])if __name__ __main__:run_product_review()pass简单说使用了 scrapy.cmdline 提供的工具执行的命令和在命令行中的一致只是这种方式可以在 idea 工具中进行 debug 调试 入门和实际开发的不同之处 开发上 a.入门例子相对简单工程结构也不怎么注重 b.生产相对复杂在核心开发上差不多也是如何去解析 html 结构工程结构上为了调度和复用可能会更复杂一点调度平台 a.有使用一些开源的调度平台因为是通用 b.还有的可能会再开源的调度平台上再包装一层自己的调度平台仅用来展示符合产品经理的设计 官方对于动态内容的引导 https://docs.scrapy.org/en/latest/topics/dynamic-content.html 个人感觉这里提供的知识点还是非常具有参考价值的简单总结 使用 scrapy shell 工具定位数据源 $ scrapy shell quotes.toscrape.com/scroll (...)view(response)使用 scrapy fetch 工具获取响应到文件这类似与查看网页源代码 scrapy fetch --nolog https://example.com response.html复制请求在浏览器中可以将请求复制为 curl 格式然后可以使用 form_curl() 来使用 from scrapy import Requestrequest Request.from_curl(curl https://quotes.toscrape.com/api/quotes?page1 -H User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0 -H Accept: */* -H Accept-Language: ca,en-US;q0.7,en;q0.3 --compressed -H X-Requested-With: XMLHttpRequest -H Proxy-Authorization: Basic QFRLLTAzMzEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MWI0LWJlZGYtMmM0YjgzZmI0MGY0 -H Connection: keep-alive -H Referer: http://quotes.toscrape.com/scroll -H Cache-Control: max-age0)解析 JavaScript 代码html 中有些网站会出现 script中间是大段的 json 数据有可能是变量也有可能是初始化数据之类的/script就可以使用 比如是 var data {field: value};可以使用如下的方式匹配 pattern r\bvar\sdata\s*\s*(\{.*?\})\s*;\s*\n json_data response.css(script::text).re_first(pattern) json.loads(json_data) {field: value}
http://www.dnsts.com.cn/news/36540.html

相关文章:

  • wordpress建外贸网站中小型网站建设怎么样
  • 网站建设具体要求网站建设小白到精通需要
  • 建设网站方面的知识滑动网站
  • 东莞网站建设(信科分公司)深圳网站设计公司费用多少
  • 优秀网站设计流程wix做的网站
  • 黑色网站源码深圳宝安区有哪些街道
  • ppt模板下载的网站有哪些简单网页制作成品代码
  • 网站备案号的链接去成都旅游攻略
  • 丽水网站建设企业潍坊网站建设wfxtseo
  • 移动应用开发主要学什么就业如何兰州网站seo费用
  • 阳江城乡建设部网站首页广东工厂网站建设
  • 专题研究网站建设工作动态智能网站建设推荐
  • 常州网站公司怎么选怎么建设影视卡网站
  • 开发网站比较好的公司linux上搭建网站
  • 做网站搭建的公司it运维系统详细设计
  • 浙江省工程建设协会网站python做网站框架
  • 网站怎么做优化步骤中国国际贸易网
  • 宁乡网站建设在哪加强校园网站建设方案
  • 企业网站开发流程简述萧山市seo关键词排名
  • 南京建设个人网站企业信用信息年度报告公示
  • 中山手机网站制作多少钱舟山专业做网站
  • 网站策划书wordpress-5.0.3
  • html5手机微网站电商网站开发平台哪家好
  • 博客网站源码带后台阿里云虚拟主机网站吗
  • seo网站标题北京网站建设推广服务
  • 电子商务网站建设课设学生体会建建建设网站公司网站
  • 外贸网站推广机构网站404怎么解决
  • 道里网站运营培训网站设计形式
  • 手机网站宽度多少合适wordpress redis 刷新
  • python 电商网站开发云渲染网站开发