当前位置: 首页 > news >正文

网站站外引流怎么做用dede做网站后台

网站站外引流怎么做,用dede做网站后台,wordpress教程,怎么查百度收录网站吗一、引言 本架构设计文档旨在阐述基于 Selenium 的电商商品信息采集系统的整体架构#xff0c;包括系统视图、逻辑视图、物理视图、开发视图和进程视图#xff0c;并提供一个简单的采集电商商品信息的 demo。该系统通过模拟浏览器行为#xff0c;实现对电商商品信息的自…一、引言     本架构设计文档旨在阐述基于 Selenium 的电商商品信息采集系统的整体架构包括系统视图、逻辑视图、物理视图、开发视图和进程视图并提供一个简单的采集电商商品信息的 demo。该系统通过模拟浏览器行为实现对电商商品信息的自动化抓取为数据分析、市场研究等提供数据支持。 京东获得JD商品详情 API 返回值说明 item_get-获得JD商品详情  jd.item_get 公共参数 名称类型必须描述keyString是调用key必须以GET方式拼接在URL中secretString是调用密钥api_nameString是API接口名称包括在请求地址中[item_search,item_get,item_search_shop等]cacheString否[yes,no]默认yes将调用缓存的数据速度比较快result_typeString否[json,jsonu,xml,serialize,var_export]返回数据格式默认为jsonjsonu输出的内容中文可以直接阅读langString否[cn,en,ru]翻译语言默认cn简体中文versionString否API版本 请求参数 请求参数num_iid10335871600 参数说明num_iid:JD商品ID 响应参数 Version: Date: 名称类型必须示例值描述 item item[]0获得JD商品详情 二、系统视图 系统视图描述了系统的整体结构和功能模块。本采集系统主要包括以下几个模块 1多终端接入 支持微信小程序、Android、IOS、PC 网页任意一个入口。 2用户界面模块 负责与用户进行交互提供采集任务配置、启动、停止等操作界面。 3爬虫管理模块 负责调度和管理爬虫任务包括任务队列、任务状态监控等。   4数据解析模块     负责对采集到的网页数据进行解析提取商品信息。 5数据存储模块 负责将解析后的商品信息存储到数据库或文件中。 6代理管理模块 负责代理服务器的获取、验证和管理。 为爬虫任务提供可用的代理 IP确保 IP 高可用。     监控代理服务器的状态及时剔除不可用的代理。 三、逻辑视图 逻辑视图展示了系统内部的功能划分和模块间的交互关系从用户视角描述系统有什么功能。本采集系统的逻辑视图如下 1用户通过用户界面模块配置采集任务包括目标 URL、采集深度、抓取字段等。 2用户界面模块将配置信息传递给爬虫管理模块爬虫管理模块根据配置信息创建爬虫任务并将其加入任务队列。   3爬虫管理模块调度 Selenium 驱动浏览器进行网页加载和渲染模拟用户操作进行页面滚动、点击等。 4Selenium 将加载完成的页面数据返回给爬虫管理模块爬虫管理模块将页面数据传递给数据解析模块。 5数据解析模块使用正则表达式或 XPath 等方法对页面数据进行解析提取出商品信息。 6提取的商品信息被传递给数据存储模块数据存储模块将其存储到数据库或文件中。 7代理池构建 代理管理模块首先会从各种来源如免费代理网站、付费代理服务获取代理 IP。     对获取的代理 IP 进行验证确保其可用性和匿名性。 将验证通过的代理 IP 存入代理池供爬虫任务使用。 8代理调度 当爬虫任务启动时代理管理模块会从代理池中选取一个可用的代理 IP。 将选取的代理 IP 配置到 Selenium WebDriver中确保爬虫任务通过该代理进行网页请求。 监控代理 IP 的使用情况如请求次数、响应时间等以便及时更换。 9代理维护 定期对代理池中的代理 IP 进行验证剔除不可用的代理。     根据代理 IP 的使用情况动态调整代理池的权重优先使用性能更好的代理。 当代理池中的可用代理数量低于阈值时自动从来源处获取新的代理 IP 进行补充。 四、物理视图 物理视图描述了系统在实际环境中的部署情况包括硬件、网络、软件等资源的配置。本采集系统的物理视图如下 采用微服务架构分布式部署每个服务都实现容器化整个微服务集群部署在 K8S 集群上可以扩展支持多云部署。     五、开发视图 开发视图展示了系统的代码结构和开发过程中的模块划分。本采集系统的开发视图如下 整体采用微服务架构容器化部署。 系统采用多语言开发包括 Java、Python 语言进行开发利用 Selenium 库模拟浏览器行为进行网页数据的抓取。 系统代码分为多个模块和函数每个模块和函数负责特定的功能实现代码的高内聚和低耦合。 代码使用版本控制工具如Git进行管理确保代码的可追溯性和可维护性。 六、进程视图 系统启动后主进程负责初始化系统环境和加载配置信息。 根据配置信息主进程创建爬虫任务并启动子进程执行爬虫任务。 每个爬虫任务对应一个子进程子进程使用 Selenium 驱动浏览器进行网页加载和渲染模拟用户操作进行页面抓取。 子进程将抓取到的页面数据传递给主进程进行解析和存储。 主进程负责监控子进程的运行状态确保任务的正常执行。 七、Demo 示例 下面是一个简单的基于 Selenium 的电商商品信息采集 demo用于演示系统的基本功能。 from selenium import webdriver                     from selenium.webdriver.common.by import By                     from selenium.webdriver.support.ui import WebDriverWait                     from selenium.webdriver.support import expected_conditions as EC                                          def fetch_product_info(url, driver_path):                         # 设置Firefox驱动路径                       print(driver_path)                         driver webdriver.Firefox(executable_pathdriver_path)                                                                    try:                             driver.get(url)                                                          d {}                                                        # 尝试查找商品标题                           #title driver.find_element(By.CSS_SELECTOR, #J_Title).text                             title WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.XPATH, //*[id1081181309095]/div/div/div[1]/div[2])))                             print(f商品标题: {title})                             d[title] title.text                                                        # 尝试查找商品价格                                                      price WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.XPATH, //*[id1081181309582]/div/div/div[2]/div/div[2]/div[1]/div[1]/span[2])))                           print(f商品价格: {price})                             d[price] price.text                                                        volume WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.XPATH, //*[id1081181309095]/div/div/div[3]/div[1]/div[3]/span[2])))                           d[volume] volume.text                                             for key, value in d.items():                                 print(key, value)                                                    except Exception as e:                             print(f发生错误: {e})                         finally:                             # 关闭浏览器窗口                             driver.quit()                                          # 使用示例                   fetch_product_info(https://detail.1688.com/offer/760030959718.html?spma360g.21173732.0.0.5f62410cJR8kXo, geckodriver.exe)         代码运行后 我们成功获取到了需要提取的内容     title 跨境热销水波纹投影灯动态北极光卧室星空梦幻音乐户外露 price ¥60.00~¥130.00 volume 80 我们可以查看一下待爬取的网页
http://www.dnsts.com.cn/news/114670.html

相关文章:

  • 宁波手机网站制作官方网站作用
  • 网站建设常用工具广西百度推广公司
  • 台州网站建站公司学校网站建设策划书
  • 湖南网站建设 莫道二月网站建设南宁
  • 石家庄语音网站建设公司wordpress 小工具插件下载
  • 网站建设const是什么意思权威发布李建
  • 网站建设人员配置是怎样的ios软件下载网站
  • 好看的网站设计影视网站建设
  • 融媒体建设网站怎么搞seo入门基础知识
  • 用什么网站做一手楼好军事新闻最新头条
  • 外贸网站建设制作设计案例wordpress 手机管理员密码
  • 东莞淘宝网站建设有哪些档案网站
  • 厦门响应式网站爱站网权重查询
  • 福田网站设计哪家好桑福生物科技网站开发
  • 开源网站模板cmswordpress插件实现响应式
  • 做网站找哪家公司比较好seoul是哪个城市
  • 做网站怎么保证商品是正品网站开发 实战
  • 襄阳论坛网站建设免费百度网站建设
  • 商务信息网站上线了建的网站免费吗
  • 个人网站软件电子商务网站建设解决方案
  • 免费给人做网站的win主机安装wordpress
  • 个人网站备案哈尔滨网站建设赚钱么
  • seo资源淄博网站制作优化
  • 成都网站编辑html做的网站
  • 四平网站建设公司网页翻译在哪
  • 兰州市城乡建设局网站网站制作引擎
  • 山西专业制作网站app生成下载链接
  • 如何建设网站的外链西安app开发制作公司
  • wordpress 网站改名上海地区网站设计
  • wordpress重定向次数过多郑州seo顾问热狗