当前位置: 首页 > news >正文

网站伪静态设置网店推广的目的

网站伪静态设置,网店推广的目的,北京大型广告公司有哪些,网络开发是什么定义 Robots协议也称作爬虫协议、机器人协议#xff0c;全名为网络爬虫排除标准#xff0c;用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件#xff0c;一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效#…定义 Robots协议也称作爬虫协议、机器人协议全名为网络爬虫排除标准用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效只能爬取public目录 User-agent:* Disallow:/ Allow:/public/禁止所有爬虫访问所有目录 User-agent:* Disallow:/允许所有爬虫访问所有目录 User-agent:* Disallow:禁止所有爬虫访问网站某些目录也可以写做 User-agent:* Disallow:/private/ Disallow:/tmp/只允许某一个爬虫访问所有目录 User-agent:WebCrawler Disallow: User-agent:* Disallow:/一些常见的爬虫名称 robotparser使用 该模块提供了一个类RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。 RobotFileParser类的常用方法 set_url:用来设置robots.txt文件的链接。read:读取robots.txt文件进行分析。parse:用来解析robots.txt文件can_fetch:该方法有两个参数第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False表示User-Agent指示的搜索引擎是否可以抓取这个URL。mtime返回上次抓取和分析robots.txt文件的时间。modified:它对长时间分析和抓取的搜索爬虫很有帮助可以将当前时间设置为上次抓取和分析robots.txt文件的时间 代码示例 from urllib.robotparser import RobotFileParserrp RobotFileParser() rp.set_url(http://www.baidu.com/robots.txt) rp.read()print(rp.can_fetch(Baiduspider, http://www.baidu.com)) print(rp.can_fetch(Baiduspider, http://www.baidu.com/homepage/)) print(rp.can_fetch(Googlebot, http://www.baidu.com/homepage/))这里能看到Googlebot是被严格禁止了的所以为false 注 以上便是robots协议的学习笔记整理来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。 感谢阅读~
http://www.dnsts.com.cn/news/174608.html

相关文章:

  • 长沙做旅游网站多少钱百度站长工具数据提交
  • 网站开发能用udp协议吗wordpress用户个人页面
  • 深圳宝安企业网站建设手机端网站建设的注意事项
  • 东莞网站建设公司百推wordpress系统邮件设置
  • 网站跟信息推广有哪些信息化建设网页制作自学
  • 网站通内容管理系统关键词优化话术
  • 淮阳住房城乡建设局网站建设网站涉及哪些问题
  • 淘宝内部优惠券网站怎么建设服装公司简介
  • 网站内部链接优化个人网站 摄影展示
  • 网站做桌面应用 iOS基于淘宝的网站开发分析
  • 学网站建设可以从事什么工作iis5.1建网站
  • 动漫网站源码免费无锡做网站公司哪家好电话
  • 想开个网站建设的公司百度推广联盟
  • 徐州关键词排名优化昆明seo网站
  • 相册特效手机网站成都本地推广平台
  • 南通网站建设项目网站开发费计入什么科目合适
  • 电商网站建设步骤2024年报申报入口官网
  • 温州购物网络商城网站设计制作网络公司电话是多少
  • 网站建设结单 优帮云网站内链工作做足
  • 建设网站的4个根目录被删如网站性质为公司 请以企业备案
  • 秦皇岛网站备案做网站 科目
  • 哪个网站可以查公司注册信息php网站开发小程序
  • 建网站收费吗技能培训有哪些科目
  • 网站开发有什么技术要求html购物网站设计论文
  • 吴江区网站建设wordpress手机上用的
  • 抚州市住房和城乡建设局网站山东机关建设网站道德模范
  • 网站 备案 换空间网站快速建设入门教程
  • 淮安市汽车网站建设背景大型网站技术架构核心原理与案例分析
  • 网站正在建设中 英语翻译长沙模板网站建设
  • 山东省网站备案织梦网站产品