做网站公司 陕西渭南,现在网站后台有哪几种模板形式,东莞招聘信息最新招聘官方网,环保网站策划书生成词云图的话需要先对数据进行分词处理 , 分词方法点击查看 import pandas as pd
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 假设您已经按照之前的步骤处理了数据#xff0c;并且处理后的数据保存在comments_proc…生成词云图的话需要先对数据进行分词处理 , 分词方法点击查看 import pandas as pd
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 假设您已经按照之前的步骤处理了数据并且处理后的数据保存在comments_processed.csv文件中
# 读取处理后的数据
df pd.read_csv(comments_processed.csv, encodingutf-8-sig)# 假设处理后的词汇存储在connected_words列中
words .join(df[connected_words].values)
cleaned_stt .join(words.strip().split())# 使用 split() 方法将字符串分割为列表
word_list cleaned_stt.split( )
word_counts Counter(word_list)# 提取前20个高频词如果词的数量少于20个则提取所有
top_words word_counts.most_common(80)# 准备用于生成词云的数据
# 将高频词和它们的词频分开
top_words_list, top_words_freq zip(*top_words)# 将词频列表转换为字典用于wordcloud的权重参数
word_freq_dict dict(top_words)
word_freq_dict1 {性能: 3351, 外观: 1086, 舒适: 806, 环保: 591, 智能: 433, 越野: 416, 坐在: 400, 前排: 389, 东西: 367, 拥挤: 360, 座椅: 338, 很大: 305, 储物: 304, 不错: 303, 车子: 277, 足够: 266, 腿部: 263, 舒服: 242, 设计: 238, 车内: 231}
word_freq_dict.update(word_freq_dict1)
print(word_freq_dict)
# 创建词云对象并指定字体确保支持中文
wordcloud WordCloud(width1200, height800, background_colorwhite,font_pathfrfonts\xiawuxiheixinban.ttf # 或者其他支持中文的字体文件路径).generate_from_frequencies(word_freq_dict)# 显示词云图
plt.figure(figsize(8, 8), facecolorNone)
plt.imshow(wordcloud, interpolationbilinear)
plt.axis(off)
plt.tight_layout(pad0)plt.show()