自学网站建设哪个网站好,文昌网站建设,营销推广网歹,吕梁建设机械网站前言 亚马逊公司#xff0c;是美国最大的一家网络电子商务公司#xff0c;位于华盛顿州的西雅图 是网络上最早开始经营电子商务的公司之一#xff0c;亚马逊成立于1994年 今天教大家用Python批量采集亚马逊平台商品数据#xff08;完整代码放在文末#xff09; 地址#…前言 亚马逊公司是美国最大的一家网络电子商务公司位于华盛顿州的西雅图 是网络上最早开始经营电子商务的公司之一亚马逊成立于1994年 今天教大家用Python批量采集亚马逊平台商品数据完整代码放在文末 地址https://www.amazon.cn/ 分析网站数据找到url地址 按F12打开开发者工具并刷新网站 点击搜索输入数据关键词 找到数据所在url地址 开始我们的代码
1. 发送请求
headers {Accept: text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,image/apng,*/*;q0.8,application/signed-exchange;vb3;q0.9,Accept-Encoding: gzip, deflate, br,Accept-Language: zh-CN,zh;q0.9,Cache-Control: max-age0,Connection: keep-alive,Cookie: session-id460-4132650-8765807; i18n-prefsCNY; ubid-acbcn457-7935785-7667244; session-tokenLaa3G6hMbBpdAIPYwutQqKxkSISU8fb2jTr0JiczqkeVISvqn2eqjw4N0BAbYfmy8/S1B3kLvDb9ImsBnbwQHU6JG8EToefDoi69keaL1F6ExYDXCSqFF0hC4fkGAFJlNYYNqfVlvj5ewTVJP1pYgL4JG2tjM5O2Uk7ufiL9s7gvidAMaUj1QtBW5puqmoG; csm-hitadb:adblk_not:1645531896484tb:s-VMQ97YXPSC1MBACTN14J|1645531895768; session-id-time2082729601l,downlink: 10,ect: 4g,Host: www.amazon.cn,Referer: https://www.amazon.cn/b/refs9_acss_bw_cg_pccateg_2a1_w?node106200071pf_rd_mA1U5RCOVU0NYF2pf_rd_smerchandised-search-2pf_rd_rKE929JDVF8QRWWDQCWC0pf_rd_t101pf_rd_pcdcd9a0d-d7cf-4dab-80db-2b7d63266973pf_rd_i42689071,rtt: 150,sec-ch-ua: Not A;Brand;v99, Chromium;v98, Google Chrome;v98,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: Windows,Sec-Fetch-Dest: document,Sec-Fetch-Mode: navigate,Sec-Fetch-Site: same-origin,Sec-Fetch-User: ?1,Upgrade-Insecure-Requests: 1,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36,
}url https://www.amazon.cn/s?rhn%3A106200071fstruereflp_106200071_sarresponse requests.get(urlurl, headersheaders)2. 获取数据 返回结果为Response [200]: 请求成功 把结果封装
data_html response.text3. 解析数据
selector parsel.Selector(data_html)
divs selector.css(.a-section.a-spacing-base)
for div in divs:# ::text: 提取到标签文本内容title div.css(.a-size-base-plus.a-color-base.a-text-normal::text).get()price div.css(.a-size-base.a-link-normal.s-underline-text.s-underline-link-text.s-link-style.a-text-normal .a-price .a-offscreen::text).get()img_url div.css(.a-section.aok-relative.s-image-square-aspect .s-image::attr(src)).get()link div.css(.a-link-normal.s-no-outline::attr(href)).get()print(title, price, img_url, link)4. 保存数据 5. 翻页