当前位置: 首页 > news >正文

可做百度百科参考资料的网站市场策划方案

可做百度百科参考资料的网站,市场策划方案,深圳网站设计按天收费,谷歌seo推广培训班一、爬虫的基本概念 1.什么是爬虫#xff1f; 请求网站并提取数据的自动化程序 2.爬虫的分类 2.1 通用爬虫#xff08;大而全#xff09; 功能强大#xff0c;采集面广#xff0c;通常用于搜索引擎#xff1a;百度#xff0c;360#xff0c;谷歌 2.2 聚焦爬虫#x…一、爬虫的基本概念 1.什么是爬虫 请求网站并提取数据的自动化程序 2.爬虫的分类 2.1 通用爬虫大而全 功能强大采集面广通常用于搜索引擎百度360谷歌 2.2 聚焦爬虫主题爬虫小而精 功能相对单一只针对特定的网站的特定内容进行爬取 2.3增量式爬虫只采集更新后的内容 爬取更新后的内容新闻漫画视频…区分新老数据 3.ROOT协议 什么是robots协议 3.1 Robots协议的全称是网络爬虫排除标准 (Robots Exclusion Protocol)简称为Robots协议。 3.2 Robots协议的一个很重要作用就是网站告知爬虫哪些页面可以抓取哪些不 行。君子协定:指代的是口头上的协议如果爬取了可能会出现法律纠纷(商用). 二、爬虫的基本流程 1.发起请求 通过HTTP库向目标站点发起请求即发起一个Request请求可以包含额外的headers信息等待服务器响应。 2.获取响应内容 如果服务器能正常响应会得到一个ResponseResponse的内容便是索要获取的页面内容类型可能有HTMLJson字符串二进制数据如图片视频等类型 3.解析内容 得到的内容可能是HTML可以用正则表达式、网页解析库进行解析可能是Json可以直接转为Json对象解析可能是二进制数据可能做保存或进一步处理 4.保存数据 保存形式多样可以保存为文本也可保存至数据库或者保存特定格式的文件 三、Request和Response 1浏览器就发送消息给该网址所在的服务器,这个过程叫做HTTP Request。 2服务器收到浏览器发送的消息后能够根据浏览器发送消息的内容,做相应处理,然 后把消息回传给浏览器。这个过程叫做HTTP Response。 3浏览器收到服务器的Response信息后会对信息进行相应处理,然后展示。 4.Request 4.1 主要有GET、POST两种类型 4.2 URL全称统一资源定位符如一个网页文档、一张图片、一个视频等都可 以用URL唯一来确定。 4.3 包含请求时的头部信息,如User-Agent、Host、Cookies等信息。        4.4 请求时额外携带的数据如表单提交时的表单数据。 5.Reponse 5.1 响应状态 有多种响应状态如200代表成功、301跳转、404找不到页面、502服务器错误 5.2 响应头 如内容类型、内容长度、服务器信息、设置Cookie等等。 5.3 响应体 最主要的部分,包含了请求资源的内容, 如网页HTML、图片二进制数据等。 注意在监测的时候用CtrlF调出搜索框 四、Requests模块 作用发送网络请求或得响应数据 开源地址https://github.com/kennethreitz/requestshttps://github.com/kennethreitz/requests 安装 pip install requests -i https://pypi.douban.com/simple/ 中文文档 API http://docs.python-requests.org/zh_CN/latest/index.htmlhttp://docs.python-requests.org/zh_CN/latest/index.html 官方文档    Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档https://requests.readthedocs.io/projects/cn/zh-cn/latest/ 1.Requests请求 只能得到一个包的数据 url https://www.baidu.com/ response requests.get(url) print(response)#返回的是一个响应体对象print(response.text)#获取响应体内容print(response.status_code)#响应状态码 Get请求 url https://httpbin.org/get#url https://httpbin.org/get?age18namezhangsandata {name:zhangsan,age:19}response requests.get(url,paramsdata)#params携带get请求的参数进行传参print(response.text) Post请求 rl https://httpbin.org/postdata {name:zhangsan,age:19}response requests.post(url,datadata)#data:携带post请求需要的表单数据在form里面形成print(response.text) 自己理解 对于Get来说主要在网址输入时即输入URL的时候用到而POST则是在网页里面比如翻译时的单词输入等 获取Json数据 url https://httpbin.org/getresult requests.get(url)result_data result.json()print(result_data)print(type(result_data)) 会发现Py里面的Json数据就是字典类型 获取二进制据数据 url https://b.bdstatic.com/searchbox/icms/searchbox/img/ci_boy.pngresult requests.get(url)#print(result.text) #二进制数据转文本会显示乱码strprint(result.content)#会发现是以b开头的bite类型二进制数据,bytesdata result.contentwith open(TuPian.png,wb) as f:  #wb是写入二进制f.write(data) 初步伪装小爬虫——添加headers 浏览器用户身份的标识缺少的话服务器会认为你不是一个正常的浏览器用户而是一个爬虫程序 User-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0 import requestsimport fake_useragentua fake_useragent.UserAgent()ua_fake ua.chromeurl https://www.jianshu.com/headers {#User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0User-Agent:ua_fake}result requests.get(url,headers headers)print(result.text) 会话维持 例如爬取简书的收藏的时候如果不登陆就无法爬取可以在headers里面增加cookie内容即可但要注意的是cookie有对应的时间 import requestsimport fake_useragentua fake_useragent.UserAgent()ua_fake ua.chromeurl https://www.jianshu.com/headers {#User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0User-Agent:ua_fake,cookie:}result requests.get(url,headers headers)print(result.text) 代理 import requestsp {http:120.41.143.139:21037,https:120.41.143.139:21037, }url https://www.jianshu.com/headers {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0}result requests.get(url,headers headers,proxiesp)print(result.text) 注意的是这里的ip无效,后面继续展开 五、正则表达式 1.正则表达式是对字符串操作的一种逻辑公式就是用事先定义好的一些特殊字符以及这些特殊字符的组合组成一个“规则字符串”这个“规则字符串”用来表达对字符串的一种逻辑过滤 2.非Python独有 3.Python里面是使用re模块来实现的不需要额外进行安装是内置模块 常见匹配模式 re.match()方法的使用 import re#content Hello 123 456789 World_This is a Regex Demo#re.match(正则表达式,目标字符串)#result re.match(Hello\s\d\d\d\s\d{6}\s\w{10},content)#print(result.group())#result re.match(H.*Demo,content)#result re.match(Hello\s(\d{3})\s(\d{6}),content)#print(result.group(1))  #这里0表示最先出现的括号1表示第二次出现的括号#print(result.group(1,2))    #这是一个元组后面处理较麻烦#content Hello 123456789 World_This is a Regex Demo#result re.match(He.*(\d).*Demo,content)#因为贪婪模式的存在在He之后Demo之前至少有一个数字字符即9#print(result.group(1)) #打印的为9#加上后即为非贪婪#result re.match(He.*?(\d).*Demo,content)#print(result.group(1))#content Hello 123456789#World_This# is a Regex#  Demo#result re.match(He.*?(\d).*Demo,content,re.S)#re.S忽略换行符#print(result.group())#\转义符,如果对\转义则需要两个\\也可以直接写r,再接一个\#content price is $9.99#result re.match(price\sis\s\$9.99,content) #$这个在正则表达式有自己的含义#print(result.group()) search方法 search全文检索返回满足表达式的第一个 #result re.search(a\s\href/3.mp3\ssinger(.*)(.*)/a,html)#print(result.group(1)) Findall方法 用一个大列表返回满足所有的正则表达式结果 #result re.findall(a\s\href(.*)\ssinger(.*)(.*)/a,html)#for i in result:#   print(i) Re.sub() #re.sub(要替换的目标的正则表达式,想要将前面匹配到的数据替换成什么,目标字符串)#sub_html re.sub(i.*/i,,html)#result re.findall(a\s\href(.*)\ssinger(.*)(.*)/a,sub_html)#for i in result:#   print(i)
http://www.dnsts.com.cn/news/27701.html

相关文章:

  • 电子政务系统网站建设的基本过程dede古风类网站源码
  • wordpress仿站难吗wordpress识图搜索代码
  • 二级域名网站怎么建设网站建设看什么书
  • 网站报价方案快站优惠券去哪里找
  • 仿制网站好的营销网站
  • 网站制作专业的公司重庆公司专业建站
  • 学生校园网站模板分析公司网站的开发策略
  • 宣城市建设银行网站首页网站站外优化推广方式
  • 广西住房和城乡建设厅官网桂建云东莞网络优化推广
  • 平板电脑做网站吗网站手机端 怎么做
  • 自己怎么优化网站排名做中英文网站
  • 安徽网站建设整体策划方案公共资源交易网招标信息
  • 关键词的选择网站提示摄影设备有哪些
  • 做推广都有哪些网站建设银行企业网站无法打印回单
  • 购物网站留言反馈页面机场建设投资公司官方网站
  • 手机企业wap网站iis 多网站安全设置
  • canvas设计网站深圳建设局网站
  • 茶叶网站建设策划书做电商网站多少钱
  • 建设文化产业网站的方案廉江网站开发公司
  • 网站的建设与开发厦门礼品网站商城制作案例
  • 沈阳市网站建设报价龙胜时代大厦 做网站
  • 网站开发一个网站洛阳网站公司
  • 金融产品做网站推广创业新项目
  • 注册公司的流程和步骤漯河网站优化
  • 开源网站源码下载wordpress 分页制作
  • 17网站一起做网店不发货建立企业的网站有哪几种方案
  • 学校网站建设主体海曙seo关键词优化方案
  • 做了网站应该如何推广顺德企业网站制作
  • 昆山那个网站推广好wordpress html
  • 建筑公司网站作用西安网站设计公司排名