当前位置: 首页 > news >正文

昆明市做网站海口seo关键词优化

昆明市做网站,海口seo关键词优化,可以放钓鱼网站的免费空间,建局域网网站今天想爬取一些政策#xff0c;从政策服务 (smejs.cn) 这个网址爬取#xff0c;html源码找不到链接地址#xff0c;通过浏览器的开发者工具#xff0c;点击以下红框 分析预览可知想要的链接地址的id有了#xff0c;进行地址拼接就行 点击标头可以看到请求后端服务器的api地…今天想爬取一些政策从政策服务 (smejs.cn) 这个网址爬取html源码找不到链接地址通过浏览器的开发者工具点击以下红框 分析预览可知想要的链接地址的id有了进行地址拼接就行 点击标头可以看到请求后端服务器的api地址通过拿到这个地址编写python脚本不会的可以让gpt帮你写很好用 import requests import pandas as pd import logging import time from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry# 设置日志 logging.basicConfig(levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s)# 请求头信息 headers {Content-Type: application/json,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 }# 基础URL base_url https://policy-gateway.smejs.cn/policy/api/policy/getNewPolicyList base_policy_url https://policy.smejs.cn/frontend/policy-service/# 参数 params {orderBy: ,keyWords: ,genreCode: K,A,S,Z,queryPublishBegin: ,queryPublishEnd: ,queryApplyBegin: ,queryApplyEnd: ,typeCondition: ,publishUnit: ,applyObj: ,meetEnterprise: ,title: ,commissionOfficeIds: ,commissionOfficeSearchIds: ,industry: ,relativePlatform: ,level: ,isSearch: N,policyType: ,provinceValue: 江苏省,cityValue: ,regionValue: ,current: 1,size: 15,total: 23960,page: 0 }# 总条目数和每页条目数 total_policies 23960 page_size 15 total_pages (total_policies // page_size) 1# 存储所有政策数据 all_policies []# 配置重试策略 retry_strategy Retry(total5,status_forcelist[429, 500, 502, 503, 504],allowed_methods[HEAD, GET, OPTIONS] ) adapter HTTPAdapter(max_retriesretry_strategy) http requests.Session() http.mount(https://, adapter) http.mount(http://, adapter)# 遍历每一页 for page in range(total_pages):params[current] page 1try:response http.get(base_url, headersheaders, paramsparams, verifyFalse)response.raise_for_status()except requests.exceptions.RequestException as e:logging.error(fFailed to fetch data for page {page 1}: {e})continuedata response.json()if records not in data[data]:logging.error(fNo records found for page {page 1})continuerecords data[data][records]for record in records:policy_id record.get(id)level_value record.get(levelValue)title record.get(title)type_value record.get(typeValue)commission_office_names record.get(commissionOfficeNames)publish_time record.get(publishTime)valid_date_end record.get(validDateEnd)policy_url base_policy_url policy_idall_policies.append({ID: policy_id,URL: policy_url,Level Value: level_value,Title: title,Type Value: type_value,Commission Office Names: commission_office_names,Publish Time: publish_time,Valid Date End: valid_date_end})logging.info(fFetched data for page {page 1})time.sleep(1) # 防止过快请求# 转换为DataFrame df pd.DataFrame(all_policies)# 保存到Excel df.to_excel(policies.xlsx, indexFalse) logging.info(Data saved to policies.xlsx)然后运行后就等到爬取完成了后面也可以多线程爬还没试不知道是否有防爬机制。。。。
http://www.dnsts.com.cn/news/97796.html

相关文章:

  • 懂福溶州做戒网站自己做网站stri
  • wordpress邮件找客户端站长工具seo推广
  • 怎么看一个网站有没有做301南宁建网站
  • 沈阳网站推广优化排名公司郑州网站推广汉狮网络
  • 网站建设国际标准网站需求怎么写
  • 塘沽网站制作中国十大门窗品牌排行榜
  • 济宁网站建设兼职灰色词seo排名
  • 软件开发网站有哪些wordpress 换行用
  • 网站多久才能做起来加速器怎么加速网页
  • 免费奖励的网站有哪些福建省华荣建设集团有限公司网站
  • 企业网站设计公司谷歌服务加速 wordpress
  • wap网站后台模板wordpress文章关联微信
  • 物流网站和数据库建设设计微信网站建设
  • 关键词搜索爱站网课程网站建设技术
  • 少儿教育网站建设价格wordpress 免费注册
  • 博客网站建设的流程joomla网站模板
  • icp备案查询官方网站小米装修
  • 个人网站策划书模板关键词三年级
  • 百度权重3的网站值多少公司网站建设应符合哪些法规
  • 四川建设招标网站首页做公众号模板的网站
  • xz域名网站网站开发技术路线与规范
  • 景区网站建设 现状总部在深圳的互联网公司
  • 做网站的电脑wordpress调用相关页面
  • 整站排名优化公司中石化网站是哪个公司做的
  • 手表东莞网站建设技术支持wordpress 百度插件怎么用
  • 美橙网站建设教程长春app制作
  • wordpress增加网站网页关键词重庆制作网站开发app开发公司
  • 用php做的博客网站12380网站建设情况汇报
  • 千博企业网站管理系统完整版 2014开发小程序和app开发哪个贵
  • 中国联通网站备案网页设计与制作教程第2版