兰州网站建设模板,云南域名注册网站建设,php购物网站开发文档,优化型网站建设最近完成了1个爬虫项目#xff0c;记录一下自己的心得。 
项目功能简介 
根据用户输入商品名称、类别名称#xff0c;使用Selenium, BS4等技术每天定时抓取亚马逊商品数据#xff0c;使用Pandas进行数据清洗后保存在MySql数据库中.  
使用Django提供用户端功能#xff0c;显…最近完成了1个爬虫项目记录一下自己的心得。 
项目功能简介 
根据用户输入商品名称、类别名称使用Selenium, BS4等技术每天定时抓取亚马逊商品数据使用Pandas进行数据清洗后保存在MySql数据库中.  
使用Django提供用户端功能显示商品数据以可视化的方式分析数据以及数据抓取任务管理等。    
项目技术难点 
1亚马逊Anti-scrape 措施较多主要是各类验证码解决起来也不算复杂。但页面元素分析,javascript分析的工作量占据了大部分时间。 2性能优化执行任务采用多进程运行每个进程中再使用异步方式同时发起多个请求下载图片、保存数据库均为异步执行以保证较高性能。 3由于大部分页面需要通过selenium完成操作无法采用scrapy框架所以自己编写任务管理器提供1次性任务、间隔任务、定时任务的管理、执行、监控等以及通过回调函数来清洗数据。 4Django模板中添加 Echarts Javascript 脚本进行图表绘制。由于时间短未使用Vue方式不过Django 模板  Bootstrap 也基本满足了需求。 5保持项目的扩展性通过爬虫任务管理器满足用户的各类搜索需求。数据库分为原始数据以及清洗数据中间的cleaning类可以随时扩展 6通用绘图接口功能 由于绘图是通过模板中的javascript脚本完成计划另写1套通用接口,将数据、绘图类型以参数方式传入再向django 模板插入echarts绘图脚本, 
合作说明 
亚马孙的商品页面依据类别、用户所在地、收货地等不同而有所不同但毕竟是大公司产品其页面组织是规范的因此本项目也很容易扩展。 如有对亚马逊数据分析的合作需求留私信留言。