当前位置: 首页 > news >正文

网站备案怎么取消网站发布教程视频教程

网站备案怎么取消,网站发布教程视频教程,建设部网站举报,wordpress 问卷调查python爬虫入门#xff08;实践#xff09; 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标#xff0c;查看源码 代码实现 获取博客所有h2标题的路由 url http://www.crazyant.netimport re…python爬虫入门实践 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标查看源码 代码实现 获取博客所有h2标题的路由 url http://www.crazyant.netimport requests from bs4 import BeautifulSoup#发送请求获取页面所有内容 r requests.get(url) if r.status_code ! 200:raise Exception(请求失败) # 抛出异常 html_doc r.text# 解析html获取对应信息 soup BeautifulSoup(html_doc,html.parser)h2_nodes soup.find_all(h2,class_entry-title)for h2_node in h2_nodes:link h2_node.find(a)print(link[href],link.get_text())通过标题爬取所有博客文章 爬取所有博客文章import refrom utils import url_manager import requests from bs4 import BeautifulSouproot_urlhttp://www.crazyant.net# 将root_url添加到urls中 urls url_manager.UrlManager() urls.add_new_url(root_url)# 获取所有页面内容并保存到文件 fout open(craw_all_pages.txt,w,encodingutf-8) while urls.has_new_url():curr_url urls.get_url()r requests.get(curr_url,timeout2)if r.status_code ! 200:print(请求失败,curr_url)continuesoup BeautifulSoup(r.text,html.parser)title soup.title.string # 获取标题fout.write(%s\t%s\n % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print(success: %s, %s, %d%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links soup.find_all(a)for link in links:href link.get(href)if href is None:continuepattern r^http://www.crazyant.net/\d.html$ # 匹配规则,匹配以http://www.crazyant.net/开头并且以.html结尾的url# 正则匹配, 返回一个匹配对象如果没有匹配到返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()运行结果
http://www.dnsts.com.cn/news/119369.html

相关文章:

  • 网站关键词分隔重庆注册公司受人欢迎
  • 建筑网站叫什么盘贵州飞乐云毕节网站建设
  • 巢湖网站建设费用宁波人流多少钱
  • 考试系统 微网站是什么样的大数据做网站流量分析
  • 安徽建筑工程网站白银市建设管理处网站
  • 佛山专门做网站设计怎样做做足彩推荐赚钱的网站
  • 哈尔滨网站建设排行做简单网站需要学什么软件有哪些
  • 网站开发税费怎么做赌钱网站代理
  • 普通网站设计网站建设 总体思路
  • 孝感做网站网站做端口映射
  • 网站建设需注意的wordpress window系统
  • 个人摄影网站安全文化企业示范企业评价标准
  • 苏通建设集团有限公司网站注册新公司名称查询
  • 网站主机查询有什么网站交互做的很好 知乎
  • 沈阳市建设公司网站做流量的网站
  • 深圳坂田网站建设百度关键词搜索技巧
  • 研磨材料 东莞网站建设志鸿优化网下载
  • 医院门户网站建设安徽建筑大学学工在线网站
  • 山东已经宣布封城的城市2022年廊坊关键词优化
  • 闲鱼怎么做钓鱼网站国外网站源代码
  • 关于戒烟网站怎么做南通市 网站设计
  • 做网站网站会怎么样上海网站推广价格
  • 静态网站设计方案wordpress python
  • 企业网站开发需要多钱汇云网站建设
  • 网站快速推广职场seo是什么意思
  • com网站是用什么做的爬虫 做资讯网站
  • 阜阳中国建设银行官网站请别人做网站
  • 金堂做网站的公司做旅游网站犯法吗
  • 山东建设执业资格注册中心网站官网嵌入式软件开发工程师是做什么的
  • 江西城市建设管理协会网站网站优化推广