当前位置: 首页 > news >正文

济南建网站麦积区建设局网站

济南建网站,麦积区建设局网站,龙岩做网站设计公司,网站开发协议模板文章目录 需求爬取星巴克产品以及图片#xff0c;星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片#xff0c;星巴克菜单 网页分析#xff1a; 首先#xff0c;需要分析星巴克官方网站的结构#xff0c;了解菜单栏的位置、布局以及菜单项的标签或类名等信息… 文章目录 需求爬取星巴克产品以及图片星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片星巴克菜单 网页分析 首先需要分析星巴克官方网站的结构了解菜单栏的位置、布局以及菜单项的标签或类名等信息。发送 HTTP 请求 使用 Python 的 requests 模块发送 HTTP GET 请求获取星巴克网页的 HTML 内容。解析 HTML 使用一个 HTML 解析库如 BeautifulSoup解析网页的 HTML 内容以便从中提取出菜单栏的数据。定位菜单栏元素 使用解析库的选择器功能如 CSS 选择器或 XPath定位菜单栏所在的 HTML 元素。提取菜单数据 从菜单栏元素中提取菜单项的信息可能包括菜单项名称、图片等。数据存储 将提取的菜单数据存储到适合的数据结构中。 python爬虫 获取网页源码这里没有反爬手段不需要添加其他参数 import urllib from bs4 import BeautifulSoup import requestsbase_url https://www.starbucks.com.cn/menu/ response urllib.request.urlopen(base_url) content response.read().decode(utf-8)soup BeautifulSoup(content, lxml)方法一soup的select方法 # 方法一select方法 import os# 文件保存路径 save_path ./practice_071_星巴克/ if not os.path.exists(save_path): os.makedirs(save_path)name_list soup.select(ul[classgrid padded-3 product]) # name_list[0].select(li div)[0][style] for name in name_list:submenu_pic name.select(li div)submenu_name name.select(li strong)for pic_url,name in zip(submenu_pic, submenu_name):suffix pic_url[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)# 方法1urlretrieve# urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))# 方法2写入文件形式src_response urllib.request.urlopen(picture_url)pic_content src_response.read()with open(os.path.join(save_path,picture_name), wb) as fp:fp.write(pic_content)print({} 完成地址为 {}.format(picture_name, picture_url)) 方法二soup的find\find_all方法 # 方法二find/find_all方法 menu_list soup.find(div, class_wrapper fluid margin page-menu-list).find_all(li)for name in menu_list:suffix name.find(div)[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.find(strong).get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))print({} 完成地址为 {}.format(picture_name, picture_url))爬取结果
http://www.dnsts.com.cn/news/263521.html

相关文章:

  • 购物网站建设案例网页图片显示不出来
  • 网站发展历程wordpress国人编辑器
  • 自己做网站要会什么软件wordpress 标签下的文章
  • 东莞网站建设+旅游9uu最新域址永久
  • 龙岗网站建设szaowwordpress 自定义注册
  • 佛山用户网站建站设计师推荐
  • 有哪些商业网站荣成网站建设
  • 网站快速排名优化承德市人才信息网
  • 营销微网站建设公司lamp网站架构
  • 自己建网站能赚钱吗免费网站设计定制
  • 网站入门高碑店做网站的公司
  • 杭州网站优化企业做汽车团购网站有哪些
  • 淘宝上的网站建设可信苏州行业网站建设
  • 新手怎么做跨境电商西安seo引擎搜索优化
  • 网站备案完成后企业服务公司经营范围
  • 关联网站有那些济南网站建设认可搜点网络
  • wordpress炫酷站延吉市建设厅网站
  • 营销型网站设计价格wordpress网站被攻击
  • 宜宾网站建设热点事件舆情分析报告
  • 网站主机托管wordpress v2pai
  • 虚拟主机只能静态网站天津百度网站排名优化
  • 网站开发实用技术介绍公司做网站 手机 电脑
  • 网店运营推广网站好的网站推荐一个
  • 环保主题静态网站模板云南网站建设价格低
  • 网站跳转域名不变用别人代码搭建网站
  • 婚恋网站建设技巧有没有免费做物流推荐的网站
  • 手机编码制网站广告公司好听的名字
  • 官方网站开发招标须知上海vis设计
  • 网站推广最有效的方法北京建网站的公司哪个比较好
  • 重庆有哪些旅游景点和好玩的地方seo网络营销是什么意思