当前位置: 首页 > news >正文

单位网站建设的报告福州网站建设fjfzwl

单位网站建设的报告,福州网站建设fjfzwl,建湖建网站的公司,谷歌做新媒体运营的网站刚学python爬虫的时候写了一段下载妹子图片的代码#xff0c;前两天把他翻出来爬了一堆图片#xff0c;现在给大家分享一下我的“使用姿势”。 爬的网站是这里 这个网站很有规律#xff0c;非常适合新手学习、练手。 我在爬图片的时候不仅下载了图片#xff0c;顺便收…刚学python爬虫的时候写了一段下载妹子图片的代码前两天把他翻出来爬了一堆图片现在给大家分享一下我的“使用姿势”。 爬的网站是这里 这个网站很有规律非常适合新手学习、练手。 我在爬图片的时候不仅下载了图片顺便收割了套图的名字人气我理解的是访问量喜欢实验证明点一下就会1所以我称它为点赞量发表时间编号将这些内容存在数据库中由于数据量很小只有1000行左右所以用个sqlite就行了没必要用MySQL当然写成csvtxt也是可以的。 至于怎么爬取这不是本文的重点本文的重点是利用python的pandas进行数据分析。 获得以上信息之后我用jieba做了个分词储存在数据库中可以使用SQL语句中的alter命令在原来的表结构中新增一列。分完词之后就可以进行一波操作了。我分别用Excel和python操作了一番。 Excel部分 虽然Excel处于鄙视链的倒数但是我不怕被鄙视。 这是初始数据查看没有缺失值。解释一下标题吧 id索引 name套图的名字 NOs套图的编号 numbers一套图中图片的数量 url:套图地址 year发表与那一年 date发表时间 poputarity人气访问量 like喜欢点赞量 words分好的词 我们先把没用的数据隐藏最好不要删万一有用呢保留yearnumbersdatepopularitylike和words就可以了但是words成这样我们没法操作需要对它进行分列。这是分好的数据 先做个数据透视表计个数然后就可以根据需要实现数据可视化关于数据透视表的操作百度经验一搜一大堆我就不说了直接上成果吧 由上图可知15,16,17年发图的套数和数量虽然15年的套数比16年多了100多但总数量并没有多多少平均每套图的数量也在逐年上升。下面来看详细情况: 我们发现2015年套图数量多是因为第一第二季度发的比较多。具体是哪个月我就懒得用excel弄了还是用python方便一些。下面是每套图中图片数量的箱线图Excel2016可以直接画箱线图老一点版本的也可以画出来就是比较麻烦 均值和中位数大致重合说明数据没有明显的偏态16年明显比15年上升了一个台阶16年只有一个离群值点17年3个15年5个。 上面这些都是用户关心的网站运营者主要关心的是流量虽然我不知道该网站是如何盈利的。 可以看出不管是点赞数还是访问量15年的都非常小16年和17年的都明显右偏15年的太小看不出来尤其是17年的点赞量均值比上四分位数都大简直不可描述这是由于17年有几个异常大的离群值只是被我隐藏了。 此外我还用Excel做了个词频统计 ‘写真’与’性感’突破200荣获状元和榜眼探花被’妹子’摘下’美女’仅比’妹子’少了12票屈居第四。词频在100次以上的有七个。 python部分 还是python用起来得心应手直接用pandas搞一搞就出来了。 直接上代码 import numpy as np import pandas as pd import matplotlib.pyplot as plt import sqlite3 from datetime import datetimeSQLselect * from pictures as p join names on p.idnames.id #我当时存到了两个table里面所以读的时候还要关联也可以先读取再用pandas的函数关联 connsqlite3.connect(rG:\mqiqi\meizitu.db) dfpd.read_sql(SQL,conn) #直接用pandas的函数将数据库中的数据写入数据框 df.info() #查看数据框的信息 可以将没用的数据用del删掉我没删有些数据需要转化类型像NOs要变成字符串不然我们调用describe方法的时候也会对它操作year和date要由字符串变成时间格式方便我们后续操作另外新增一个month列对月份进行描述统计还是比较合理的。相关代码如下 del df[id] df[date]pd.to_datetime(df.date,format%Y-%m-%d) #Y匹配的是四位年2017y匹配二位年17 df[month]df.date.values.astype(datetime64[M]) df.NOsdf.NOs.values.astype(str) df.yearpd.to_datetime(df.year,format%Y) df.info() 再次查看信息发现已经变了 输入’df.describe()’查看一下描述统计 这些东西在Excel中也能计算但一想到python中只要一行代码我就懒了。我们看一下点赞量的最大值是上四分位数的45倍左右导致均值被拉的虚高简直丧心病狂实际操作中可以去掉异常值但我不想这么做。 直接看看走势吧。 import matplotlib.lines as mlines plt.rcParams[font.sans-serif] [SimHei] #中文字体不然中文会显示成口 plt.figure() x1df.groupby(month).popularity.sum() x2df.groupby(month).like.sum() p1x1.plot(colorb,labelu每月总访问量) p2x2.plot(secondary_yTrue,style--,colorr,labelu每月总点赞量) #设置次坐标轴 blue_line mlines.Line2D([],[],linestyle-,colorblue,markersize2, labelu每月总访问量) red_line mlines.Line2D([],[],linestyle--,colorred,markersize2, labelu每月总点赞量) plt.legend(handles[blue_line,red_line],locupper left) plt.grid(True) plt.show() 得到下图 大写的PS这些指标都是虚荣指标除了放出来给浏览的客户看看没什么卵用真正有用的指标不会给我们看到的 大体上是波动上升其中在15年2、3、4月网站的总访问量明显较高16年8、9月也显著增加17年1月的点赞量异常高应该就是那几个丧心病狂的造成的。 接下来将访问量和点赞量平均到每套图上看看 df[rate]df.like/df.popularity*10000*100 plt.rcParams[font.sans-serif] [SimHei] plt.figure() x1df.groupby(month).popularity.sum()/(df.groupby(month).count().popularity) x2df.groupby(month).like.sum()/(df.groupby(month).count().like) x3df.groupby(month).rate.sum()/(df.groupby(month).count().rate) p1x1.plot(colorb,labelu每月平均访问量) p2x2.plot(secondary_yTrue,style--,colorr,labelu每月平均点赞量) p3x3.plot(secondary_yTrue,style--,colorg,labelu每月平均点赞率) blue_line mlines.Line2D([],[],linestyle-,colorblue,markersize2, labelu每月平均访问量) red_line mlines.Line2D([],[],linestyle--,colorred,markersize2, labelu每月平均点赞量) green_linemlines.Line2D([],[],linestyle--,colorgreen,markersize2, labelu每月平均点赞量) plt.legend(handles[blue_line,red_line,green_line],locupper left) plt.grid(True) plt.show() 这里添加一个新的变量rate代表点赞率它的数量级是万分之一为了能和坐标轴匹配我将它扩大了1百万倍为什么大家看完不点赞呢 可以看出15年2,3,4月平均每套图访问量并没有升高主要原因是多发了几套图。如果我们假定一个用户对一套图只进行一次浏览我们可以认为网站的活跃用户在此期间并没有明显的增加。至于转现率用户留存率之类的我搞不到数据。 点赞率也在缓缓上升这能不能算作网民素质提高的一种表现呢? 最后放一张箱线图 可以看出来比Excel的好看多了为了图形的美观我把离群值都忽略了右上角的是点赞率的图只有万分之几这究竟是道德的沦丧还是人性的悲哀。单纯从网站访问量和点赞量来看该网站的运营情况挺好的。 我也用python做了词频图和一些条形图和Excel的没啥差别就不贴出来了。 说了这么多总得给大家几张福利图片冲击一下视觉吧。 怎么样够刺激吧 第一次发文各位大佬多多指教。
http://www.dnsts.com.cn/news/76581.html

相关文章:

  • 小学英语教师做应用相关网站公司网站建立流程
  • 信息类网站win8扁平化网站
  • 淘宝请人做网站被骗曲靖建设局网站
  • 韩国优秀电商网站wordpress 执行流程
  • 开发网站建设公司网络调查问卷怎么制作
  • 湛江网站建设方案外包用户体验地图用什么软件画
  • 玉树营销网站建设多少钱怎么制作网站卖东西
  • 建立网站专业公司设计官网费用
  • 网站生成器怎么做唐山公司做网站
  • 做药品的电商网站有哪些平面设计做画册用网站
  • 建设网站需要花费多少钱青岛关键词优化报价
  • 做网站只开发手机端可不可以怎么样开始做网站
  • 小馋网站建设书外包加工网是正规的吗
  • 自己做网站 怎么赚钱西安附近网络营销运营公司
  • wordpress程序如何降低版本seo公司软件
  • 无锡网站制作哪家有名山东建筑公司排名
  • 宁波科技网站建设旧手机服务器wordpress
  • 网站开发怎样将信息栏到最底部建立大型网站流程
  • 延边州住房城乡建设局网站wordpress资源下载主题
  • 做暖暖的视频网站html全部源码免费
  • 德州营销型网站网易邮箱企业邮箱密码忘了
  • 网站设计 线框图wordpress 2018主题
  • 杭州桐庐网站建设j网站开发
  • app网站制作下载公司部门分工
  • 有趣的设计网站珠宝玉器监测网站建设方案
  • 江苏省建设培训网站网站制作周期
  • 网站建设技术标书canva 可画主页首页首页模板素材
  • 基于asp.net网站开发中华室内设计协会
  • 网站策划编辑信阳做网站的公司
  • 长沙 外贸网站建设公司WordPress添加下一篇