当前位置: 首页 > news >正文

上海站群优化WordPress下如何用页面做侧边栏

上海站群优化,WordPress下如何用页面做侧边栏,哪些是企业网站,昆山快速建设网站方案一、准备过程 首先打开hao123漫画筛选区#xff0c;网址是https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 在这里可以通过审查模式看到第一页的详细信息#xff0c;而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近… 一、准备过程 首先打开hao123漫画筛选区网址是https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 在这里可以通过审查模式看到第一页的详细信息而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近漫画迷的观漫需求 环境如下   python3.6.2    PyCharm   Windows8.1  第三方库jieba,wordcloudbs4Requestsrewordcloud) 二、代码 1.用requests库和BeautifulSoup库爬取hao123漫画网当前页面的每部漫画的漫画名、地域、题材、人气、链接等将获取漫画详情的代码定义成一个函数  def getCartoonDetail(cartoonUrl): # 将获取hao123漫画详情的代码定义成一个函数 def getCartoonDetail(cartoonUrl): def getCartoonDetail(cartoonUrl):resd requests.get(cartoonUrl)resd.encoding utf-8soupd BeautifulSoup(resd.text, html.parser)cartoons {}# 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# 计算字符串的长度num len(a)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num]ul soupd.select(.info-list)[0]# 地域cartoons[territory] ul.select(li)[1].text.lstrip(地域).replace(\xa0, )#漫画题材cartoons[theme] ul.select(li)[-2].text.lstrip(题材).replace(\xa0, )#人气cartoons[moods] ul.select(li)[-1].text.lstrip(人气)writeCartoonDetail(cartoons[theme] cartoons[moods] \n)return cartoons 2.取出一个漫画列表页的全部漫画 包装成函数def getListPage(pageUrl): def getListPage(pageUrl):res requests.get(pageUrl)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)cartoonlist []for cartoon in soup.select(.item-1):# cartoon.select(.title)获取列表里的漫画标题if len(cartoon.select(.title)) 0:a cartoon.select(a)[0].attrs[href]#链接cartoonlist.append(getCartoonDetail(a))return cartoonlist 3.获取总的漫画篇数算出漫画总页数包装成函数def getPageN(): def getPageN():res requests.get(https://www.hao123.com/manhua/list/?finishaudienceareacateorder1)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)n int(soup.select(.gray)[1].text.lstrip(共).rsplit(页)[0])return n 4. 获取全部漫画列表页的全部漫画详情。爬取页面前30页原因是爬取的数据太多搞到电脑蓝屏列表好像出现过溢出 cartoontotal [] pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 cartoontotal.extend(getListPage(pageUrl))n getPageN() for i in range(2, 30 1):pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1pn{}.format(i)cartoontotal.extend(getListPage(pageUrl)) 5.将爬取到所有信息通过pandas根据评分排序然后只爬取title和moods两列的信息并保存至excel表中 df pandas.DataFrame(cartoontotal) # 将爬取到所有信息通过pandas根据人气排序然后只爬取title和moods两列的信息并保存至excel表中 dfsdf.sort_index(bymoods, ascendingFalse) dfsndfs[[title, moods]] dfsn.to_excel(cartoon.xlsx, encodingutf-8) 6.将爬取到的漫画题材通过构造方法writeNewsDetail(content)写入到文本cartoon.txt中 def writeCartoonDetail(content):fopen(cartoon.txt,a,encodingutf-8)f.write(content)f.close()   三、生成词云  通过导入wordcloud的包来生成词云 from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator # image Image.open(./logo.jpg) # graph np.array(image) # 获取上面保存的字典 title_dict changeTitleToDict() graph np.array(title_dict) font rC:\Windows\Fonts\simhei.ttf # backgroud_Image代表自定义显示图片这里我使用默认的 backgroud_Image plt.imread(G:/大三2/大数据/filedocuments/logo1.jpg) wc WordCloud(background_colorwhite,max_words500,font_pathfont, maskbackgroud_Image) # wc WordCloud(background_colorwhite,max_words500,font_pathfont) wc.generate_from_frequencies(title_dict) plt.imshow(wc) plt.axis(off) plt.show() 选择的图片   原图 由于生成的词云是按照背景色来生成的故显示效果为    一个矩形明显不是我想要的效果所以重新抠图如下  效果如下  四、遇到的问题及解决方案   1.在导入wordcloud这个包的时候会遇到很多问题 首先通过使用pip install wordcloud这个方法在全局进行包的下载可是最后会报错误error: Microsoft Visual C 14.0 is required. Get it with “Microsoft Visual C Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools  这需要我们去下载VS2017中的工具包但是网上说文件较大所以放弃。 之后尝试去https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载whl文件然后安装。 下载对应的python版本进行安装如我的就下载wordcloud-1.4.1-cp36-cp36m-win32.whl,wordcloud-1.4.1-cp36-cp36m-win_amd64 两个文件都放到项目目录中两种文件都尝试安装 通过cd到这个文件的目录中通过pip install wordcloud-1.4.1-cp36-cp36m-win_amd64,进行导入 但是两个尝试后只有win32的能导入64位的不支持所以最后只能将下好的wordcloud放到项目lib中在Pycharm中import wordcloud,最后成功 2.在爬取漫画信息的时候爬取漫画标题的时候会因为soupd.select(.title-wrap)[0].text获取除标题外的其他值如已完结如下图   解决方案如下 # 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# 计算字符串的长度num len(a)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num] 五、数据分析与结论 通过对词云的查看可以看出漫画迷对于类型类型为搞笑、爱情、生活、魔幻、治愈、冒险等题材的漫画喜欢而对都市、竞技、悬疑等题材的漫画选择很少这说明观看漫画选择的大多数是有关于有趣与刺激的而对于推理类的漫画选择少这样在出版漫画时可以通过受众程度来出版。 而在这次作业中我了解并实现如何爬取一个网站的有用信息如何对爬取的信息分析并得到结论虽然我对于大数据技术深度的技术并不了解而且基础的知识也需要我不断加深巩固。 六、所有代码 # 大数据大作业 # 爬取hao123漫画网中的漫画人气最多的题材 import requests import re from bs4 import BeautifulSoup import pandas import jieba# 将爬取到的漫画题材通过构造方法writeNewsDetail(content)写入到文本cartoon.txt中 def writeCartoonDetail(content):fopen(cartoon.txt,a,encodingutf-8)f.write(content)f.close()# 将获取hao123漫画详情的代码定义成一个函数 def getCartoonDetail(cartoonUrl): def getCartoonDetail(cartoonUrl):resd requests.get(cartoonUrl)resd.encoding utf-8soupd BeautifulSoup(resd.text, html.parser)# print(cartoonUrl)cartoons {}# 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# print(a)# 计算字符串的长度num len(a)# print(num)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num]# print(title)# b soupd.select(.info-list)[0].select(li)[-1].text# print(b)ul soupd.select(.info-list)[0]# print(ul)# 地域cartoons[territory] ul.select(li)[1].text.lstrip(地域).replace(\xa0, )# print(territory)#漫画题材cartoons[theme] ul.select(li)[-2].text.lstrip(题材).replace(\xa0, )# print(theme)#人气cartoons[moods] ul.select(li)[-1].text.lstrip(人气)# print(moods)# b soupd.select(.chapter-page)# print(b)writeCartoonDetail(cartoons[theme] cartoons[moods] \n)return cartoons# 取出一个漫画列表页的全部漫画 包装成函数def getListPage(pageUrl): def getListPage(pageUrl):res requests.get(pageUrl)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)cartoonlist []# c soup.select(.list-page)# c soup.select(.item-1)# print(c)# a c[0].select(a)[0].attrs[href]#链接# print(a)# soup.select(.item-1)获取漫画列表for cartoon in soup.select(.item-1):# cartoon.select(.title)获取列表里的漫画标题if len(cartoon.select(.title)) 0:# print(cartoon.select(.title))a cartoon.select(a)[0].attrs[href]#链接# print(a)cartoonlist.append(getCartoonDetail(a))# print(cartoonlist)return cartoonlist# 获取总的漫画篇数算出漫画总页数包装成函数def getPageN(): def getPageN():res requests.get(https://www.hao123.com/manhua/list/?finishaudienceareacateorder1)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)n int(soup.select(.gray)[1].text.lstrip(共).rsplit(页)[0])return n# 获取全部漫画列表页的全部漫画详情。 cartoontotal [] pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 cartoontotal.extend(getListPage(pageUrl)) # print(cartoontotal)n getPageN() # print(n) for i in range(2, 6 1):pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1pn{}.format(i)cartoontotal.extend(getListPage(pageUrl))# print(cartoontotal) # print(cartoontotal)cartoonsList {} for c in cartoontotal:# print(c)cartoonsList[theme] c[theme]cartoonsList[moods] c[moods] print(cartoonsList)df pandas.DataFrame(cartoontotal) # print(df) # 将爬取到所有信息通过pandas根据人气排序然后只爬取title和moods两列的信息并保存至excel表中 dfsdf.sort_index(bymoods, ascendingFalse) dfsndfs[[title, moods]] # print(dfsn) dfsn.to_excel(cartoon.xlsx, encodingutf-8)# import jieba # f open(cartoon.txt,r,encodingUTF-8) # str1 f.read() # f.close() # str2 list(jieba.cut(str1)) # countdict {} # for i in str2: # countdict[i] str2.count(i) # dictList list(countdict.items()) # dictList.sort(keylambda x: x[1], reverseTrue) # f open(G:/大三2/大数据/filedocuments/jieba.txt, a) # for i in range(30): # f.write(\n dictList[i][0] str(dictList[i][1])) # print(f) # f.close()# 读取保存的内容,并转化为字典同时把结果返回生成词云 def changeTitleToDict():f open(cartoon.txt, r, encodingutf-8)str f.read()stringList list(jieba.cut(str))delWord {, /, , , 【, 】, , , , 、}stringSet set(stringList) - delWordtitle_dict {}for i in stringSet:title_dict[i] stringList.count(i)return title_dict# 生成词云 from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator # image Image.open(./logo.jpg) # graph np.array(image) # 获取上面保存的字典 title_dict changeTitleToDict() graph np.array(title_dict) font rC:\Windows\Fonts\simhei.ttf # backgroud_Image代表自定义显示图片这里我使用默认的 backgroud_Image plt.imread(G:/大三2/大数据/filedocuments/logo.jpg) wc WordCloud(background_colorwhite,max_words500,font_pathfont, maskbackgroud_Image) # wc WordCloud(background_colorwhite,max_words500,font_pathfont) wc.generate_from_frequencies(title_dict) plt.imshow(wc) plt.axis(off) plt.show()   转载于:https://www.cnblogs.com/2647409627qq/p/8933926.html
http://www.dnsts.com.cn/news/51274.html

相关文章:

  • 深圳商城网站哪家做的好wordpress占用id
  • 大岭山网站阿里云服务器管理
  • 做网站的的价位网站架构有哪些
  • 源码出售网站设计方案英语
  • h5case什么网站各种资源都有的搜索引擎
  • 长沙网站排名技术从事网站美工建设
  • 青海网站建设多少钱网站和网络有什么区别
  • 网站外接软文营销的五个特点
  • 国产手机做系统下载网站成都高新区国土规划建设局网站
  • 餐饮企业网站设计商务网站规划建设与管理试卷
  • 怎么在服务器里面做网站西安网站建设哪家好
  • 贵阳网站微信建设公司河南做网站公司汉狮
  • 东莞市官网网站建设哪家好网站架设方式
  • 律师网站素材推荐好用的浏览器
  • 成都网站建设是什么个人网站首页
  • 做网站做哪个全国小微企业名录官网
  • 商贸公司寮步网站建设极致发烧wordpress 十个
  • seo做网站花乡做网站公司
  • 网站缩略图存哪里好政务服务中心网站建设总结
  • 家电网站设计济南的网站建设
  • 镜像网站怎么做排名云南seo整站优化报价
  • 新乡网站建设制作app软件免费下载安装最新版
  • 松原市建设局网站二手网站开发
  • 网站制作带优化wordpress 多媒体 权限
  • 网站建设现状调查研究深圳创业贷
  • 怎样制作个人网站摄影网站投稿
  • 工程建设云网站优秀个人网站主页
  • 网站建设公司的方案wordpress如何修改代码
  • 萧山做网站公司wordpress地址改不了
  • 北京中航空港建设工程有限公司网站梅州市工程建设交易中心网站