当前位置: 首页 > news >正文

个人做网站做什么样的话打折网站建设教程下载

个人做网站做什么样的话,打折网站建设教程下载,如何配置wordpress,开发项目的流程由于今日头条网页是动态渲染#xff0c;再加上各种token再验证#xff0c;因此直接通过API接口获取数据难度很大#xff0c;本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点#xff1a; 代码中加了很多的异常处理#xff0c;保证错误后重试#xff0c;…由于今日头条网页是动态渲染再加上各种token再验证因此直接通过API接口获取数据难度很大本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点 代码中加了很多的异常处理保证错误后重试提高稳定性EdgeChromiumDriverManager().install()自动下载浏览器驱动避免浏览器更新后驱动版本不对的问题使用driver.refresh()、driver.close()、driver.quit()防止占用内存过多使用--disable-extensions禁用插件避免插件可能带来的影响使用--inprivate打开无痕模式这里遇到一个很烦的问题用户登录同步问题无痕模式可以避免 from webdriver_manager.microsoft import EdgeChromiumDriverManagerdef get_html_by_selenium(url):print(开始, url)options webdriver.EdgeOptions()# 启用禁用浏览器正在被自动化程序控制的提示启动参数options.add_experimental_option(excludeSwitches, [enable-automation])# 禁用插件options.add_argument(--disable-extensions)# 无痕模式options.add_argument(--inprivate)count 0driver Nonewhile count 10:try:driver webdriver.Edge(serviceService(executable_pathEdgeChromiumDriverManager().install()),optionsoptions)# 最小化driver.minimize_window()time.sleep(1)driver.get(url)breakexcept WebDriverException as e:print(e)count 1time.sleep(3)continueexcept ConnectionError as e:print(e)count 1time.sleep(3)continueif driver is None:returntime.sleep(10)try:html driver.page_source# 防止内存泄露driver.refresh()try:driver.close()except WebDriverException:passdriver.quit()return htmlexcept NoSuchWindowException:return新闻列表解析代码 URL示例 https://www.toutiao.com/c/user/token/MS4wLjABAAAA6Ftyf-tftfbjp1u_TEz6kpY77ZlPaYRV0UsfXkF2UsM/?tabarticle 这里比较简单拿到了新闻标题和urlHTML解析过程中可能遇到浏览器中渲染的html结构和真实请求到的html结构不一样要以真实拿到的html内容为准 url fhttps://www.toutiao.com/c/user/token/{USER_TOKEN}/?tabarticle html get_html_by_selenium(url) soup BeautifulSoup(html, html.parser)for article in soup.find_all(div, attrs{class: profile-article-card-wrapper}):a article.find(a)news_title a[title]url a[href]content, news_time parse_and_save_news(url)新闻内容解析代码 相对比较简单忽略了图片的解析最终获得新闻的内容和新闻时间 def parse_and_save_news(url):html get_html_by_selenium(url)if not html:returnsoup BeautifulSoup(html, html.parser)article_content soup.find(div, attrs{class: article-content})if article_content is None:returnarticle_meta soup.find(div, attrs{class: article-meta})time_string article_meta.find(span, attrsNone).textnews_time datetime.strptime(time_string, %Y-%m-%d %H:%M)article article_content.articlenew_soup BeautifulSoup(htmlbody/body/html, html.parser)body new_soup.bodyfor p in article.find_all(p):body.append(BeautifulSoup(fp{p.text}/p, html.parser))content new_soup.prettify()return content, news_time
http://www.dnsts.com.cn/news/203516.html

相关文章:

  • 网站更新问题类似稿定设计的网站
  • 易迈互联网站建设怎么样河北邯郸有几个区县
  • 做商城网站服务器配置怎么选择徐州seo公司
  • 郑州做网站元辰什么是网站空间
  • 做影视网站存储视频会侵权吗大学生为什么不去中建
  • 做网站推广收入好吗权重较高网站
  • 企业网站建设总体构架外包小程序开发的价格
  • 淘宝上网站开发退款关键词优化一般收费价格
  • 在网站做博客长沙传媒公司招聘
  • 开发网站需要什么开发工具游戏源码论坛
  • 郑州网站制淘宝网官方网站网页版
  • 百度免费网站如何建设站长之家特效网站
  • 分享经济网站怎么建设自动发卡网站怎么做
  • 台北网站建设为农村建设网站报告
  • 网站建设公司盈利详情页设计方法
  • 网站备案成功创建网址链接
  • 织梦网站建设流程wordpress全自动赚钱
  • 南宁较好的网站建设公司做有后台的网站
  • 牡丹江哈尔滨网站建设wordpress主题cute
  • 网站设计目标怎么写常见的网站首页布局有哪几种
  • dw手机销售网站制作免费行业网站源码
  • 网站建设完成后交付方式软件设计师是干什么的
  • 计算机 网站开发 文章苏州企业网站设计企业
  • 上海网站建设推国家企业信用系统
  • 河北建设厅网站官网营口手机网站建设
  • i57500网站开发wordpress值得买主题
  • 天台建设局网站科技公司怎么取名字
  • 多语言网站怎么实现的昌平最好的网站建设
  • 网站建设需要多少天时间怎样做好营销推广
  • 企业网站优化培训企业网站建设效果