当前位置: 首页 > news >正文

中国工程建设协会网站网络用户管理系统

中国工程建设协会网站,网络用户管理系统,百度app小程序,会qt怎么做网站一、安装package 在使用爬虫前#xff0c;需要先安装三个包#xff0c;requests、BeautifulSoup、selenium。 输入如下代码#xff0c;若无报错#xff0c;则说明安装成功。 import requests from bs4 import BeautifulSoup import selenium二、Requests应用 了解了原理…一、安装package 在使用爬虫前需要先安装三个包requests、BeautifulSoup、selenium。 输入如下代码若无报错则说明安装成功。 import requests from bs4 import BeautifulSoup import selenium二、Requests应用 了解了原理接下来实际应用一下requests库叭~ import requestsurl https://www.baidu.com r requests.get(url) print(r.status_code) print(r.headers) print(r.text)如果运行上述代码时出现如下报错 requests.exceptions.ProxyError: HTTPSConnectionPool(hostblog.csdn.net, port443): Max retries exceeded with url: /m0_51339444/article/details/129049696 (Caused by ProxyError(Cannot connect to proxy., OSError(0, Error))) 可能是因为1网络资源过大网络无法加载2使用了科学上网需要关闭。 运行后其中r.status_code的返回值是200表示请求成功但是如果返回值是400则表示请求失败。另外发现程序的r.text输出出现乱码这是因为在headers内没有明确指出encoding方式会将其默认成ISO-8859-1编码方式导致乱码。但是仔细观察r.text输出meta中暗示了是“utf-8”编码 因此需要指定r.encoding “utf-8”然后再执行输出无乱码。完整代码如下 import requestsurl https://www.baidu.com r requests.get(url) print(r.status_code) print() print(r.headers) print() print(r.text) print() print(r.encoding) r.encoding utf-8 print() print(r.text)三、URL管理器 class UrlManager():url管理器def __init__(self): # 初始化self.new_urls set() # 放待爬取过的urlself.old_urls set() # 放已经爬取的url# 增添新的url下面两个函数实现添加以及判重def add_new_url(self, url):if url is None or len(url) 0: # 判定url是否合法return# 判断url是否在容器中, 在就return不添加if url in self.new_urls or url in self.old_urls:returnself.new_urls.add(url) # 否则就添加新的url在集合中def add_new_urls(self, urls):if urls is None or len(urls) 0:returnfor url in urls:self.add_new_url(url)# 获取待爬取的url (记得更改url状态)def get_url(self):if self.has_new_url():url self.new_urls.pop()self.old_urls.add(url)return urlelse:return None# 判断容器中有没有新的待爬取的urldef has_new_url(self):return len(self.new_urls) 0if __name__ __main__:url_manager UrlManager()url_manager.add_new_url(url1)url_manager.add_new_urls([url1, url2])print(url_manager.new_urls, url_manager.old_urls)print()new_url url_manager.get_url()print(url_manager.new_urls, url_manager.old_urls)print()new_url url_manager.get_url()print(url_manager.new_urls, url_manager.old_urls)print()print(url_manager.has_new_url())四、HTML简介 为了方便我们更好的理解网站的构成需要先了解一下HTML的基本原理。 head里面是网站上不可见的信息 body里面是网站上可见的信息
http://www.dnsts.com.cn/news/19901.html

相关文章:

  • wordpress后台登录logo靖江seo要多少钱
  • 沧浪公司网站建设电话网站名称与备案名称不一致
  • vs2013 网站开发科技企业网站模板
  • 建设五证在那个网站可以查企业网站优化包括哪三个层面
  • 鹤壁网站设计什么是网络营销战略
  • 上海建站网络科技怎样保证网站的安全
  • 电商网站建设服务凡科小程序登录
  • 网站搭建的步骤wordpress 提权攻击
  • 网站设计制作平台哪个好甘肃再就业建设集团网站
  • 建筑网建设通网站作用前几年做那个网站致富
  • 建立一个网站沈阳做网站软件
  • 行业协会网站织梦模板自建站有哪些
  • 那个网站可以免费建站网站域名登陆
  • 国外网站代做你做的网站会不会被人模仿
  • 学网站建设的软件网络销售渠道
  • 网站上海备案查询哈尔滨百姓网免费发布信息
  • 2014网站设计网站系统繁忙怎么办
  • 广告素材网站哪个比较好祝贺公司网站上线
  • 北京建设工程主管部门网站wordpress获取用户位置
  • 刷数据网站怎么推广做货源的网站
  • 网站如何设计方案wordpress hotnews syntax error
  • 网站开发 法律声明wordpress可视化功能
  • 企业网站开发哪家好网站出现建设中
  • 网站开发人员属于什么设计方案
  • 建站之星免费wordpress的数据库有多大
  • 莆田网站建设培训建设网站的各种问题
  • 网站怎么做图片动态图片不显示不出来普通网站成微网站开发
  • 安阳市网站建设西昌手机网站建设成都彩钢顶防水
  • 河北省建设机械协会是正规网站吗软件技术方案
  • 佛山模板网站建设ftp网站服务器