十堰高端网站建设,企业如何进行网站建设,php网站访问很慢,谷歌可以做网站吗热词统计#xff1a;短信、邮件、微信、QQ、微博、电商评价、新闻、各行业热词#xff08;旅游、世界杯、战争、考研等#xff09;、热点事件等场景。
展示模型#xff1a;给定多段文本#xff0c;绘制出词云图。
核心思想#xff1a;根据样本集中的文本包含的高频词…热词统计短信、邮件、微信、QQ、微博、电商评价、新闻、各行业热词旅游、世界杯、战争、考研等、热点事件等场景。
展示模型给定多段文本绘制出词云图。
核心思想根据样本集中的文本包含的高频词汇作为输入比如筛选出最高频的30个词按频率的高低进行逐级突出显示。可行性分析
利用运营商的5000条短信数据样本提取样本短信文本中所对应的关键特征高频词汇频率由高到低位置从中心到边缘字体从大到小笔画从粗到细结合颜色修饰达到突出重点的效果。 载入数据文件 查看字段定义 sms_raw-read.csv(sms_spam.csv,stringsAsFactors FALSE)
str(sms_raw) 统计样本类别比例 table(sms_raw$type)取垃圾短信子集 sms_raw_spam-subset(sms_raw,typespam) 取正常短信子集 sms_raw_ham-subset(sms_raw,typeham) 安装文本挖掘支持包、加载文本挖掘支持包 install.packages(tm)
library(tm) 创建语料库 sms_corpus-Corpus(VectorSource(sms_raw$text))
sms_corpus_spam-Corpus(VectorSource(sms_raw_spam$text))
sms_corpus_ham-Corpus(VectorSource(sms_raw_ham$text)) 查看语料库情况 print(sms_corpus)
print(sms_corpus_spam)
print(sms_corpus_ham)查看语料库内容 inspect(sms_corpus[1:3])
inspect(sms_corpus_spam[1:3])
inspect(sms_corpus_ham[1:3])数据清理转小写 corpus_clean - tm_map(sms_corpus,tolower)
corpus_clean_spam - tm_map(sms_corpus_spam,tolower)
corpus_clean_ham - tm_map(sms_corpus_ham,tolower) 数据清理去掉停用词 corpus_clean - tm_map(corpus_clean,removeWords,stopwords())
corpus_clean_spam - tm_map(corpus_clean_spam,removeWords,stopwords())
corpus_clean_ham - tm_map(corpus_clean_ham,removeWords,stopwords())数据清理去掉标点符号 corpus_clean - tm_map(corpus_clean,removePunctuation)
corpus_clean_spam - tm_map(corpus_clean_spam,removePunctuation)
corpus_clean_ham - tm_map(corpus_clean_ham,removePunctuation)安装词云支持包 install.packages(wordcloud) 加载词云支持包 library(wordcloud)生成总体词云图 wordcloud(corpus_clean,min.freq 40,random.order FALSE) 生成正常短信词云图 wordcloud(corpus_clean_ham,min.freq 40,random.order FALSE)生成垃圾短信词云图 wordcloud(corpus_clean_spam,min.freq 40,random.order FALSE) 综上完成了热点词汇的可视化。