当前位置: 首页 > news >正文

个人网站备案名字重要吗电脑网站进不去网页怎么办

个人网站备案名字重要吗,电脑网站进不去网页怎么办,苏州网络营销推广多少钱,学校网站建设目的是什么一、前言 近些年来#xff0c;网络上的爬虫越来越多#xff0c;很多网站都针对爬虫进行了限制#xff0c;封禁了一些不规则的请求。为了实现正常的网络爬虫任务#xff0c;爬虫常用代理IP来隐藏自己的真实IP#xff0c;避免被服务器封禁。本文将介绍如何使用Python爬虫来…一、前言 近些年来网络上的爬虫越来越多很多网站都针对爬虫进行了限制封禁了一些不规则的请求。为了实现正常的网络爬虫任务爬虫常用代理IP来隐藏自己的真实IP避免被服务器封禁。本文将介绍如何使用Python爬虫来获取代理IP以及如何在爬虫中使用代理IP。 二、获取代理IP 获取代理IP有两种方式免费代理IP网站和收费代理IP服务。免费代理IP网站通常提供一些免费的代理IP但是这些代理IP质量很不稳定很容易被封禁或失效收费代理IP服务则提供稳定、可靠的代理IP但需要付费购买。由于本文主要介绍如何使用Python爬虫因此我们将使用免费代理IP网站进行代理IP的获取。 具体来说我们可以使用爬虫抓取一些免费代理IP网站上的代理IP列表。这里以站大爷免费代理IP为例具体步骤如下 打开站大爷代理网站https://www.zdaye.com/选择代理IP类型和位置点击搜索按钮。打开开发者工具F12进入网络选项卡点击清空按钮再点击“获取更多内容”按钮观察是否有新的请求被发送。发现一个名为“nn”的请求请求的URL为http://www.zdaye.com/nn/1其中“nn”表示高匿代理IP而数字“1”表示页码。我们可以通过修改页码来获取不同页的代理IP。在请求头中添加“User-Agent”字段模拟浏览器请求避免被服务器拒绝。抓取响应中的HTML代码使用正则表达式或BeautifulSoup库从中提取代理IP及其端口号。 下面是具体的Python代码实现 import requests from bs4 import BeautifulSoup import re# 抓取代理IP列表 def fetch_proxy_ips():headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36}url_template http://www.xzdaye.com/nn/{}proxy_ips []for page in range(1, 11):url url_template.format(page)resp requests.get(url, headersheaders)soup BeautifulSoup(resp.text, html.parser)trs soup.find_all(tr)for tr in trs[1:]:tds tr.find_all(td)proxy_ip tds[1].text : tds[2].textproxy_ips.append(proxy_ip)return proxy_ips# 测试代理IP是否可用 def test_proxy_ip(proxy_ip):url http://httpbin.org/ipproxies {http: http:// proxy_ip,https: https:// proxy_ip}try:resp requests.get(url, proxiesproxies, timeout5)resp.raise_for_status()return Trueexcept:return False# 获取可用的代理IP def get_valid_proxy_ips():proxy_ips fetch_proxy_ips()valid_proxy_ips []for proxy_ip in proxy_ips:if test_proxy_ip(proxy_ip):valid_proxy_ips.append(proxy_ip)return valid_proxy_ipsprint(get_valid_proxy_ips()) 在上面的代码中我们首先使用fetch_proxy_ips()函数抓取西刺代理网站上的前10页高匿代理IP列表然后使用test_proxy_ip()函数测试每个代理IP是否可用测试URL为http://httpbin.org/ip最后使用get_valid_proxy_ips()函数返回可用的代理IP列表。 三、使用代理IP 使用代理IP可以在requests库中指定proxies参数。proxies参数是一个字典类型其中键名是协议http或https键值是代理IP及其端口号。例如如果我们要使用代理IP地址为“1.2.3.4”端口号为“5678”的代理服务器则proxies参数应该为 proxies {http: http://1.2.3.4:5678,https: https://1.2.3.4:5678 } 下面是一个简单的爬虫示例使用代理IP爬取JD商品搜索页面 import requests# 使用代理IP爬取京东商品搜索页面 def crawl_jd_goods(query, proxy_ip):url_template https://search.jd.com/Search?keyword{}encutf-8page{}headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36}proxies {http: http:// proxy_ip,https: https:// proxy_ip}for page in range(1, 6):url url_template.format(query, page)resp requests.get(url, headersheaders, proxiesproxies)print(resp.status_code)print(resp.text)# 获取可用的代理IP proxy_ips get_valid_proxy_ips()# 使用第一个可用的代理IP爬取京东商品搜索页面 query Python编程 proxy_ip proxy_ips[0] crawl_jd_goods(query, proxy_ip) 在上面的代码中我们首先获取可用的代理IP列表然后使用第一个可用的代理IP爬取京东商品搜索页面搜索关键字为“Python编程”。 四、总结 需要注意的是代理IP并不是万能的在一些反爬虫机制非常强大的网站上即使使用代理IP也很容易被封禁。此外一些代理IP质量较差访问速度较慢甚至会返回错误响应。因此在实际使用中需要根据具体情况选择可用的代理IP。
http://www.dnsts.com.cn/news/110251.html

相关文章:

  • 中国网站建设的利弊如何加强门户网站建设
  • 游戏ui设计师网站有哪些做图片的软件带字图片
  • 网站域名空间一年费用是多少钱wordpress加中文字体
  • 做网站如何躲过网警下载网站源文件
  • 大型网站开发视频祁东网站建设
  • 英文网站制作++官网网站设计中怎么做二级页面
  • 心理健康教育网站建设网站建设去哪
  • 青县网站建设咨询河南省人事考试网
  • 网站的建设需要数据库专业公司网站设计企业
  • 网站知名度推广成都建设高端网站
  • 用最少的钱做网站深圳人社局官网
  • 顺德网站财务公司经营范围有哪些
  • 网站开发网页制作薪资旅游网站开发背景
  • 佛山专业网站推广公司网站建设 网络科技公司
  • 网站商城建设费用四川电商推广公司
  • 网站群集建设网架公司地址
  • 如何提升网站用户体验乐都网站建设多少钱
  • 贵州省城乡与住房建设部网站网站建设陕西
  • 怎么避免网站开发后门vs做网站教程
  • 做seo 教你如何选择网站关键词河南国安建设集团有限公司网站
  • 宁波网站建设熊掌号百度链接提交工具
  • 长沙建站优化做商城网站哪个好
  • 商城网站建设怎么样上海新闻官网
  • 外国建筑网站wordpress建好本地站怎么上传
  • 网站建设演讲稿网站建设与管理(第2版)
  • 什么网站做贸易好cms系统都有哪些
  • wordpress随机切换主页内容江苏seo技术教程
  • 专业营销的网站建设公司dede视频网站源码
  • 新手要如何让网站被收录在线生成logo图标免费
  • 北京外贸网站制作公司网站代理违法吗