当前位置: 首页 > news >正文

网站页面改版网站项目策划方案

网站页面改版,网站项目策划方案,wordpress做的网站扩展性,广州百度推广排名优化Scrapy框架之全局配置文件settings.py详解 前言 settings.py 文件是 Scrapy框架下#xff0c;用来进行全局配置的设置文件#xff0c;可以进行 User-Agent 、请求头、最大并发数等的设置#xff0c;本文中介绍 settings.py 文件下的一些常用配置 正文 1、爬虫的项目目录…Scrapy框架之全局配置文件settings.py详解 前言 settings.py 文件是 Scrapy框架下用来进行全局配置的设置文件可以进行 User-Agent 、请求头、最大并发数等的设置本文中介绍 settings.py 文件下的一些常用配置 正文 1、爬虫的项目目录名、爬虫文件名 BOT_NAMEScrapy 项目实现的 bot 的名字。用来构造默认 User-Agent同时也用来 log。 当使用 startproject 命令创建项目时其也被自动赋值。 SPIDER_MODULES爬虫文件名。 # Scrapy settings for Baidu project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # https://docs.scrapy.org/en/latest/topics/settings.html # https://docs.scrapy.org/en/latest/topics/downloader-middleware.html # https://docs.scrapy.org/en/latest/topics/spider-middleware.html # 爬虫的项目目录名 BOT_NAME Baidu SPIDER_MODULES [Baidu.spiders] NEWSPIDER_MODULE Baidu.spiders2、设置USER_AGENT USER_AGENT爬取的默认User-Agent。 # Crawl responsibly by identifying yourself (and your website) on the user-agent # 设置USER_AGENT USER_AGENT Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko)3、设置是否遵循robots协议(必须) ROBOTSTXT_OBEY是否遵循 robots 协议默认为True需要设置为False 必须要设置的 # Obey robots.txt rules # 是否遵循robots协议默认为True需要设置为False 必须要设置的 ROBOTSTXT_OBEY False4、设置最大并发量 CONCURRENT_REQUESTS最大并发量默认为16可以理解为开多少线程 # Configure maximum concurrent requests performed by Scrapy (default: 16) # 最大并发量默认为16可以理解为开多少线程 CONCURRENT_REQUESTS 165、设置下载延迟时间 DOWNLOAD_DELAY每隔多长时间去访问一个页面(每隔一段时间发请求降低数据抓取频率) # See also autothrottle settings and docs # 下载延迟时间每隔多长时间去访问一个页面(每隔一段时间发请求降低数据抓取频率) DOWNLOAD_DELAY 16、设置是否启用Cookie COOKIES_ENABLED是否启用Cookie默认是禁用的取消注释即为开启Cookie # 是否启用Cookie默认是禁用的取消注释即为开启Cookie # 注释的情况禁用 # 取消注释并设置为False找settings.py中DEFAULT_REQUEST_HEADERS中的Cookies # 取消注释并设置为True找爬虫文件中Request()方法中的cookies参数或者中间件 # COOKIES_ENABLED False7、设置请求头 DEFAULT_REQUEST_HEADERS请求头类似于requests.get()方法中 headers 参数 # Override the default request headers: # 请求头类似于requests.get()方法中 headers 参数 DEFAULT_REQUEST_HEADERS {Accept: text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8,Accept-Language: en }8、设置是否启用中间件 DOWNLOADER_MIDDLEWARES开启中间件项目目录名.模块名.类名:优先级(1-1000不等) # Enable or disable downloader middlewares # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html # 开启中间件 # 项目目录名.模块名.类名:优先级(1-1000不等) # DOWNLOADER_MIDDLEWARES { # Baidu.middlewares.BaiduDownloaderMiddleware: 543, # }9、设置是否启用实体管道 ITEM_PIPELINES开启管道项目目录名.模块名.类名:优先级(1-1000不等) # Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html # 开启管道 # 项目目录名.模块名.类名:优先级(1-1000不等) # ITEM_PIPELINES { # Baidu.pipelines.BaiduPipeline: 300, # }10、设置保存日志文件及级别 LOG_LEVEL设置日志级别DEBUG INFO WARNING ERROR CARITICAL LOG_FILE设置保存日志文件名称 # 设置日志级别DEBUG INFO WARNING ERROR CARITICAL LOG_LEVEL INFO # 保存日志文件 LOG_FILE KFC.log11、设置数据导出编码格式 FEED_EXPORT_ENCODING设置数据导出的编码utf-8 “gb18030” FEED_EXPORT_ENCODING utf-8 # 设置数据导出的编码utf-8 gb1803012、定义MySQL数据库相关变量 MYSQL_HOST服务器 MYSQL_USER用户名 MYSQL_PWD密码 MYSQL_DB表 CHARSET编码 # 定义MySQL数据库的相关变量 MYSQL_HOST xxxxxxxxx MYSQL_USER xxxx MYSQL_PWD xxxxxx MYSQL_DB xxxxx CHARSET utf813、定义MangoDB数据库相关变量 MANGO_HOST服务器 MANGO_PORT端口号 MANGO_DB表 MANGO_SET编码 # 定义MangoDB相关变量 MANGO_HOST xxxxxxxx MANGO_PORT xxxxx MANGO_DB xxxxx MANGO_SET carset
http://www.dnsts.com.cn/news/249686.html

相关文章:

  • 网站建设销售话术900句自己制作动画的软件
  • 手机上自己做网站世界技能大赛网站建设
  • 网站开发小图片专业的网页制作公司
  • 工厂视频网站建设导购返利网站开发
  • 新手做网站看什么书网络优化公司网站代码
  • 网站排名优化效果wordpress的样式表
  • 做网站流量怎么赚钱吗渗透wordpress论坛
  • 我要表白网站在线制作佛山智唯网站建设
  • 成品网站源码1688的优势用阿里云服务器做刷单网站
  • 网页游戏网站那个好苏州怎么做网站
  • 怎么做有趣视频网站怎样做QQ网站呢
  • 网站优化师负责干什么wordpress主题HaoWa
  • 有网站怎样做推广WordPress 文章模板制作
  • 扁平化网站设计监控视频做直播网站
  • 外贸网站推广费用刷赞抖音推广网站
  • 手机网站怎么制作内容临沂网站建设熊掌号
  • 长沙零基础学快速建站看手机的网站叫什么
  • 深圳做网站应该怎么做国外做枪视频网站
  • 尤溪县建设局网站长沙网站运营
  • 手机端网站建站手册合肥建设网站哪家好
  • php教育网站开发自己有网站源码就可以建设吗
  • 模板网站是啥意思wordpress更改作者
  • 网站上的图片怎么替换网站备案中打不开
  • 长春做个人网站做不了我的百度网盘登录入口
  • 中国建设网官方网站好听的网站名称
  • 网站建设花多少钱韶关做网站的
  • 校园时空网站建设分析建设的网站都是怎么赚钱
  • 企业网站关键词排名 swordpress的中文插件
  • 网站pc转移动端代码焦作做微信网站多少钱
  • 网站需求怎么写南京做网站seo的