当前位置: 首页 > news >正文

企业网站功能列表现在有什么推广平台

企业网站功能列表,现在有什么推广平台,购物网站哪个最好,手机网站建设网在学习深度学习的卷积神经算法时#xff0c;需要猫和狗的训练数据集。这时想到在百度网上爬取猫和狗的图片。 在爬取狗狗图片的时候#xff0c;我抓包分析了下获取这个url1 “https://image.baidu.com/search/index?tnbaiduimageipnrct201326592cl2lm需要猫和狗的训练数据集。这时想到在百度网上爬取猫和狗的图片。 在爬取狗狗图片的时候我抓包分析了下获取这个url1 “https://image.baidu.com/search/index?tnbaiduimageipnrct201326592cl2lmst-1fmindexfrhs0xthttps111110sf1fmqpvic0nc1zseshowtab0fb0widthheightface0istype2ieutf-8word”然后在该URL返回的信息中获取狗图片的url链接。但是在使用该链接获取的狗图片链接只有30张这些远远不够训练数据。 我开始抓包分析后面的图片加载出来的时候是通过url2“https://image.baidu.com/search/acjson?tnresultjson_comword%E7%8B%97%E7%8B%97ieutf-8fpresultfrala0applid7765865225436197871pn30rn30nojc0gsm1enewReq1这个网址来加载的当pn和rn都等于30时相当于该网址的第二页。当pn和rn等于60时是该网址的第三页。找到该规律后就可以通过for循环来获取很多狗狗图片的url. 于是我将url的地址从url1换成url2,但是在发送request请求时报b{antiFlag:1,message:Forbid spider access}错误。我爬虫的代码被反爬了。我使用该url2在apifox上运行apifox上是可以成功返回url2的返回信息的。 即然通过接口可以获取正确的返回值那通过代码应该也可以获取正确的返回信息。在网上查询Forbid spider access错误信息有提示说添加丰富headers信息会解决该问题。我将网上headers的相关字段都拔下来发送requests消息该Forbid spider access错误信息解决了但是返回的消息都是一段看不懂的字符。 我猜测应该是与编码相关我查看了下抓包信息response的content-encoding值为br我尝试了下将Accept-Encoding:gzip, deflate, br, zstd,注释掉然后试试。不出所料注释后就可以正常运行了。 获取img相关url的代码如下 urls_img [] for n in range(100):pn n*30url https://image.baidu.com/search/acjson?tnresultjson_comword%E7%8C%ABieutf-8fpresultfrala0applid10467951401242802557pn str(pn) rn str(pn) nojc0gsm5enewReq1print(url)time.sleep(20)payload{}headers {Cookie: cookieBDIMGISLOGIN0; winWH%5E6_1560x882; BIDUPSID31E30236016B14E87E80A761DA8D007D; PSTM1746601325; BAIDUID31E30236016B14E870600C64626E7373:FG1; MAWEBCUIDweb_zLZtQkKKSPdTpACZxFACKprGPULtIeLcIQMzqvrDsrtFgKqqSu; H_WISE_SIDS_BFESS62327_62833_63143_63241_63326_63352_63380_63382_63394_63390_63403_63441_63458_63472_63497_63543_63533_63548; BDSFRCVIDlaPOJeC62xv16McsstZOeePUug5K4enTH6bHG1IqkxAuf9BSprw9EG0PZM8g0KuhkXxkogKKKgOTHICF_2uxOjjg8UtVJeC6EG0Ptf8g0x5; H_BDCLCKID_SFJRKqoD-afI83fP36q4bHK-t052T22jnQKGR9aJ5nJDoWfCDCXtb5Kn0lXUo-QpQt5bTi_n58QpP-HlnjDfraMnkF5fD83qJj-jk8Kl0MLUcYbb0xynosMpkbMUnMBMni52OnapTn3fAKftnOM46JehL3346-35543bRTLnLy5KJWMDcnK4-Xj5bWjG5P; delPer0; PSINO5; BDSFRCVID_BFESSlaPOJeC62xv16McsstZOeePUug5K4enTH6bHG1IqkxAuf9BSprw9EG0PZM8g0KuhkXxkogKKKgOTHICF_2uxOjjg8UtVJeC6EG0Ptf8g0x5; H_BDCLCKID_SF_BFESSJRKqoD-afI83fP36q4bHK-t052T22jnQKGR9aJ5nJDoWfCDCXtb5Kn0lXUo-QpQt5bTi_n58QpP-HlnjDfraMnkF5fD83qJj-jk8Kl0MLUcYbb0xynosMpkbMUnMBMni52OnapTn3fAKftnOM46JehL3346-35543bRTLnLy5KJWMDcnK4-Xj5bWjG5P; BA_HECTOR2k8g8k2k2l0k840g24a10k0kag04061k4khge25; BAIDUID_BFESS31E30236016B14E870600C64626E7373:FG1; ZFYgTCA97ON7I:BQC2pFSM9Q0QHQvSKXixg:BldTCH3HmRJc:C; H_PS_PSSID62327_62833_63143_63241_63326_63352_63403_63441_63458_63497_63543_63533_63548_63568_63564_63582_63576; BDORZB490B5EBF6F3CD402E515D22BCDA1598; H_WISE_SIDS62327_62833_63241_63352_63441_63458_63564_63582_63576; arialoadDatafalse; ab_sr1.0.1_MmM5MzUxNDBhN2I5NGE5MWRjN2JmOTc5ZjU3ODA1NmUwOWQ0Zjg0YmVkODNhYmNhNTk0MjI4MDYxYmIyNGNhYWYzYjY0MDg2NmM0YjBjNzUwNGNjMWI0NGNlYTA5MGYyNWY5MzcwZWM0ZGM1YTg2YmM4YzE5N2ZmODUyMjg5ODU4MTk4YzU3YzgxMmVhNTYwMGEwYTMyNzVmYjIwMmY0MA,User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36,content-type: application/json,Accept: application/json, text/plain, */*,Host: image.baidu.com,Connection: keep-alive,# Accept-Encoding:gzip, deflate, br, zstd,Accept-Language:zh-CN,zh;q0.9,sec-ch-ua:Google Chrome;v137, Chromium;v137, Not/A)Brand;v24,referer:https://image.baidu.com/search/index?tnbaiduimageipnrct201326592cl2lmst-1fmindexfrhs0xthttps111110sf1fmqpvic0nc1zseshowtab0fb0widthheightface0istype2ieutf-8word%E7%8B%97%E7%8B%97,sec-ch-ua-platform:macOS}response requests.request(GET, url, headersheaders, datapayload)time.sleep(10)print(str(response.content))string_context str(response.content)format rhttps://img2.baidu.com(.*?)(?\)url_second re.findall(patternformat,stringstring_context)urls_img.append(url_second) print(urls_img) 怎样在request返回的response信息中获取图片的url链接呢如下图所示 这种可以考虑使用正则表达式来获取url的链接然后使用re.findall()函数将对应的url全找出。 import re string_context str(response.content) format rhttps://img2.baidu.com(.*?)(?\)---这个正则表达式是表示将https://img2.baidu.com和“中间字符取出。 url_second re.findall(patternformat,stringstring_context) ##将url信息存储到json文件中 with open(/Users/zc/PyCharmMiscProject/dataset/cat_urls.json,w) as f:json.dump(urls_img,f)###读取json文件 with open(/Users/zc/PyCharmMiscProject/dataset/cat_urls.json,r) as f:urls_load json.load(f)print(len(urls_load))因为截取的url链接为/it/u2826177801,1382156594\\\\u0026fm253\\\\u0026app138\\\\u0026fJPEG?w500\\\\u0026h667我和真实的img链接对比了下需要将\\\\u0026替换成所以还需要对各个链接做相应的处理。我使用了字符串的replace()函数进行处理还有一种处理方法即使用str.split(\\\\u0026)对字符串进行分割然后将分割后的list1组合一起使用().join(list1)函数连接 ###url链接转换 url_format[] for i in range(len(urls_load)-1):for j in range(len(urls_load[i])-1):url_new urls_load[i][j].replace(\\\\u0026,)url_format.append(url_new) 组合img的链接然后下载图片并标号。需要注意的是headers_img中的content-type为image/webp path /Users/zc/PyCharmMiscProject/dataset/cat/ host_1 https://img2.baidu.com headers_img {user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36,content-type:image/webp} for i in range(len(url_format)-1):url_img host_1 url_format[i]img_res requests.request(urlurl_img,methodGET,headersheaders_img)if img_res.status_code 200:img_name str(i) .jpgwith open(pathimg_name,wb) as file:file.write(img_res.content)else:print(it fails to download jpg)
http://www.dnsts.com.cn/news/57753.html

相关文章:

  • 网页设计导航栏内容班级优化大师手机版下载(免费)
  • 做旅游网站的公司求合伙人做网站
  • 十堰高端网站建设开发高端网站建设价格
  • 带域名的网站打不开网站建设与建设
  • 网站说说模板.嘉兴房产网站建设
  • 网站的建设维护南阳做网站多少钱
  • 湖南省新邵县建设局网站海外电商平台哪个好
  • 招商网站建设费用价格腾讯云服务器使用教程
  • 个人做网站能赚钱吗做广告公司网站建设价格
  • 网站建设付费项目做网站 租服务器
  • 帮我们做网站的人找不到了长沙百度开户
  • 湄潭建设局官方网站网站建设的运营计划书
  • 个人网站 免费空间免备案cdn
  • 郑州做网站大量网站被关wordpress 无标题
  • 做封面图的网站做兼职的设计网站有哪些
  • 流行的企业网站推广崇左网页设计
  • 成功的个人网站施工企业既搞建筑安装又搞建筑材料销售其应纳税种为
  • 营销导向的企业网站优化乐平城市建设局网站
  • 做游戏的网站西宁电子商务网站建设
  • 大岭山网站仿做专业郑州网站建设
  • 网站的电子手册用什么做的wordpress 4.8 en us
  • 学网站建设要什么高德导航怎么看街景地图
  • 临沂企业自助建站做网站职校选什么专业
  • 网站推广指标包括( )。主播网站建设
  • 网站建设ydwzjs做行程规划的旅行网站
  • 苏州网站建设优化任丘市网站建设
  • 网站建设游戏开发网站静态页面下载工具
  • 网站 被攻击_主业篡改 被黑了 织梦做的站便宜建网站
  • 网站备案 湖北个人信息查询
  • 做那个男女的视频网站怎么打广告宣传自己的产品