当前位置: 首页 > news >正文

高校网站建设资料库电子商务网页制作是什么

高校网站建设资料库,电子商务网页制作是什么,网页设计素材分析案例,天津网络推广培训目录 前言总体设计系统整体结构图系统流程图 运行环境Python 环境TensorFlow环境方法一方法二 模块实现1. 数据预处理1#xff09;导入数据2#xff09;数据清洗3#xff09;统计词频 2. 词云构建3. 关键词提取4. 语音播报5. LDA主题模型6. 模型构建 系统测试工程源代码下载… 目录 前言总体设计系统整体结构图系统流程图 运行环境Python 环境TensorFlow环境方法一方法二 模块实现1. 数据预处理1导入数据2数据清洗3统计词频 2. 词云构建3. 关键词提取4. 语音播报5. LDA主题模型6. 模型构建 系统测试工程源代码下载其它资料下载 前言 本项目运用了TF-IDF关键词提取技术结合词云数据可视化、LDA (Latent Dirichlet Allocation)模型训练以及语音转换系统来实现一个基于TensorFlow的文本摘要程序。 首先我们利用TF-IDFTerm Frequency-Inverse Document Frequency技术来提取文本中的关键词。这有助于找出文本中最具代表性的词汇为后续的摘要提取提供了重要的信息。 其次我们运用词云数据可视化技术将关键词以视觉化的方式展示出来。这能够帮助用户直观地理解文本的重点和关注点。 接下来我们使用LDA模型进行训练这是一种用于主题建模的技术。通过LDA模型我们能够发现文本中隐藏的主题结构从而更好地理解文本内容的分布和关联。 最后我们将这些技术结合在一起创建了一个基于TensorFlow的文本摘要程序。这个程序可以自动提取文本的关键信息、主题结构并生成简明扼要的文本摘要。 另外我们还融合了语音转换系统使得生成的文本摘要能够通过语音方式呈现提升了用户的体验和使用便捷性。 通过这个项目我们能够将多种技术融合在一起实现一个功能强大的文本摘要程序为用户提供更便捷、直观的文本理解和获取体验。 总体设计 本部分包括系统整体结构图和系统流程图。 系统整体结构图 系统整体结构如图所示。 系统流程图 系统流程如图所示。 运行环境 本部分包括 Python 环境和TensorFlow环境。 Python 环境 需要Python 3.6及以上配置在Windows环境下推荐下载Anaconda完成对Python环境的配置下载地址为https://www.anaconda.com/。也可下载虚拟机在Linux环境下运行代码。 TensorFlow环境 安装方法如下 方法一 打开Anaconda Prompt,输入清华仓库镜像。 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config -set show_channel_urls yes创建Python 3.6的环境名称为TensorFlow此时Python版本和后面TensorFlow的版本有匹配问题此步选择Python 3.x。 conda create -n tensorflow python3.6有需要确认的地方都输入y。在Anaconda Prompt中激活TensorFlow环境: conda activate tensorflow安装CPU版本的TensorFlow pip install -upgrade --ignore -installed tensorflow测试代码如下 import tensorflow as tf hello tf.constant( Hello, TensorFlow! ) sess tf.Session() print sess.run(hello) # 输出 bHello! TensorFlow安装完毕。 方法二 打开Anaconda Navigator进入Environments 单击Create在弹出的对话框中输入TensorFlow选择合适的Python版本创建好TensorFlow环境然后进入TensorFlow环境单击Not installed在搜索框内寻找需要用到的包。例如TensorFlow在右下方选择apply测试是否安装成功。在Jupyter Notebook编辑器中输入以下代码: import tensorflow as tf hello tf.constant( Hello, TensorFlow! ) sess tf.Session() print sess.run(hello) # 输出 bHello! TensorFlow能够输出hello TensorFlow说明安装成功。 模块实现 本项目包括6个模块:数据预处理、词云构建、关键词提取、语音播报、LDA主题模型、模型构建下面分别给出各模块的功能介绍及相关代码。 1. 数据预处理 在清华大学NLP实验室推出的中文文本数据集THUCNews中下载下载地址为https://github.com/gaussic/text-classification-cnn-rnn。共包含5000条新闻文本整合划分出10个候选分类类别财经、房产、家居、教育、科技、时尚、时政、体育、游戏、娱乐。 1导入数据 通过jupyter notebook来实现相关代码如下 #导入相应数据包 import pandas as pd import numpy as np #数据的读入及读出 df_newspd.read_table(./cnews.val.txt,names[category,content]) df_news.head()从文件夹读出相应的数据分别表示新闻数据的类别及内容如图所示。 #数据的类别及总量 df_news.category.unique() df_news.content.shape #为方便后续对数据的处理将原始表格型据结构转换成列表格式 content_listdf_news.content.values.tolist()数据类别处理代码编译成功如图所示。 2数据清洗 新闻文本数据中不仅包括了中文字符还包括了数字、英文字符、标点等分词是中文文本分析的重要内容正确的分词可以更好地构建模型。中文语料中词与词之间是紧密相连的这一点不同于英文或者其他语种的语料因此不能像英文使用空格分词而是使用jieba库中的分割方法。 #jieba分词 content_fenci [] #建立一个空的 for line in content_list:text jieba.lcut(line) #给每一条都分词if len(text) 1 and text ! \r: #换行content_fenci.append(text) #将分词后的结果放入 #content_fenci[0] #分词后的一个样本 df_contentpd.DataFrame({content:content_fenci}) df_content.head()分词后结果如图所示。 #导入停用词 def drop_stopwords(contents,stopwords):content_clean [] #放清理后的分词all_words []for line in contents:line_clean[]for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))content_clean.append(line_clean)return content_clean,all_words content_clean,all_words drop_stopwords(content_fenci,stopwords_list,) df_clean pd.DataFrame({contents_clean:content_clean}) df_clean.head()清洗后结果如图所示。 3统计词频 统计文本中每个单词出现的次数对该统计按单词频次进行排序。如图所示。 相关代码如下 tf Counter(all_words)2. 词云构建 词云是对文本中出现频率较高的关键词予以视觉化的展现词云过滤掉大量低频低质的文本信息使浏览者快速阅读文本就可领略文本的主旨。 #导入背景图片后的词云 mask imread(4.png)#读入图片 wcwordcloud.WordCloud(font_pathfont,maskmask,background_colorwhite,scale2) #scale:按照比例进行放大画布如设置为2则长和宽都是原来画布的2倍 wc.generate_from_frequencies(tf) plt.imshow(wc) #显示词云 plt.axis(off) #关闭坐标轴 plt.show() wc.to_file(ciyun.jpg) #保存词云3. 关键词提取 TF-IDF是一种统计方法字词的重要性随着它在文件中出现的次数成正比增加但同时也会在语料库中出现的频率成反比下降接下来通过TF-IDF算法的运用实现关键词提取。 import jieba.analyse index 2 #print(df_clean[contents_clean][index]) #词之间相连 content_S_str .join(content_clean[index]) print(content_list[index]) print(关键词) print( .join(jieba.analyse.extract_tags(content_S_str, topK10, withWeightFalse)))4. 语音播报 将上述提取成功的关键词通过pyttsx3转换成语音进行播报。 import pyttsx3 voicepyttsx3.init() voice.say( .join(jieba.analyse.extract_tags(content_S_str, topK10, withWeightFalse))) print(准备语音播报.....) voice.runAndWait()5. LDA主题模型 LDA是一种文档主题生成模型也称为三层贝叶斯概率模型模型中包含词语(W)、主题(Z)和文档(theta)三层结构。文档到主题、主题到词服从多项式分布得出每个主题都有哪些关键词组成。在实际运行中因为单词数量多而一篇文档的单词数是有限的如果采用密集矩阵表示会造成内存浪费所以gensim内部是用稀疏矩阵的形式来表示。首先将分词清洗后的文档使用dictionary corpora.Dictionary (texts) 生成词典其次将生成的词典转化成稀疏向量。 def create_LDA(content_clean):#基于文本集建立词典并获得特征数dictionary corpora.Dictionary(content_clean)#基于词典将分词列表集转换成稀疏向量集称作语料库dic len(dictionary.token2id)print(词典特征数%d % dic)corpus [dictionary.doc2bow(sentence) for sentence in content_clean]#模型训练lda gensim.models.LdaModel(corpuscorpus, id2word dictionary,num_topics 10,passes10)#passes 训练几轮print(lda.print_topic(1,topn5))print(-----------)for topic in lda.print_topics(num_topics10, num_words 5):print(topic[1]) create_LDA(content_clean)6. 模型构建 贝叶斯分类器的原理是通过某对象的先验概率利用贝叶斯公式计算出后验概率即该对象属于某一类的概率选择具有最大后验概率的类作为所属类。一个mapping对象将可哈希的值映射为任意对象映射是可变对象。目前Python中只有一种标准映射类型一字典 用花括号表示但是花括号中的每个元素都是一个键值对(key: value)字典中的键值对也是无序的。 df_trainpd.DataFrame({content:content_clean,label:df_news[category]}) #为了方便计算把对应的标签字符类型转换为数字 #映射类型(mapping) #非空字典 label_mapping {体育: 0, 娱乐: 1, 家居: 2, 房产: 3, 教育:4, 时尚: 5,时政: 6,游戏: 7,科技: 8,财经: 9} df_train[label] df_train[label].map(label_mapping) #df_train.head() #将每个新闻信息转换成字符串形式CountVectorizer和TfidfVectorizer的输入为字符串 def create_words(data):words []for index in range(len(data)):try:words.append( .join(data[index]))except Exception:print(index)return words #把数据分成测试集和训练集 x_train,x_test,y_train,y_test train_test_split(df_train[content].values,df_train[label].values,random_state0) train_words create_words(x_train) test_words create_words(x_test) #模型训练 #第一种 #CountVectorizer属于常见的特征数值计算类是一个文本特征提取方法 #对于每个训练文本只考虑每种词汇在该训练文本中出现的频率 vec CountVectorizer(analyzer word,max_features4000,lowercaseFalse) vec.fit(train_words) classifier MultinomialNB() classifier.fit(vec.transform(train_words),y_train) print(模型准确率:,classifier.score(vec.transform(test_words), y_test)) #第二种TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外 #关注包含这个词汇的其它训练文本数目的倒数训练文本的数量越多特征化的方法就越有优势 vectorizer TfidfVectorizer(analyzerword,max_features 40000, lowercaseFalse) vectorizer.fit(train_words) classifier.fit(vectorizer.transform(train_words),y_train) print(模型准确率为:,classifier.score(vectorizer.transform(test_words),y_test))系统测试 词云如图1所示关键词提取如图2所示LDA测试结果如图3所示贝叶斯结果如图4所示。 图1 词云 图2 关键词提取 图3 LDA结果 图4 贝叶斯结果 工程源代码下载 详见本人博客资源下载页 其它资料下载 如果大家想继续了解人工智能相关学习路线和知识体系欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线所有资料免关注免套路直接网盘下载》 这篇博客参考了Github知名开源平台AI技术平台以及相关领域专家DatawhaleApacheCNAI有道和黄海广博士等约有近100G相关资料希望能帮助到所有小伙伴们。
http://www.dnsts.com.cn/news/40202.html

相关文章:

  • 做调查问卷的网站有什么温州网站建设报价
  • 免费软件app下载大全正能量网站网站开发作用
  • 网站收录了被人为删了怎么办深圳网站系统哪家强
  • 找网站公司做网站天津网站大全
  • 西安做企业网站邳州建网站
  • 思维导图在线制作网站小破站下载
  • 免费微网站_自助建站c 做网站
  • 上海网站建设开百度快照 网站描述 更新
  • 网站建设的组织结构wordpress建立网盘
  • 专业网站建设公司哪里济南兴田德润什么活动wordpress技术论坛
  • 网站需要维护自适应h5网页模板
  • 性价比最高网站建设价格承接网站怎么做
  • 做业务查牙医诊所一般用什么网站wordpress建网站知乎
  • 绵阳专门做网站的公司广州网站建设 致茂
  • 佛山网站设计特色三亚 网站建设
  • 健身房网站建设案例烟台企业管理培训课程
  • 一个网站有多少网页排名好的网站关键词优化企业
  • 做网站开发语言硅云wordpress
  • 个人作品集网站模板免费下载企顺网网站建设
  • 贵州建设厅网站在建工程查询敦煌网跨境电商怎么样
  • 系统的php网站建设公司网站建设维护及使用管理办法
  • 打代码怎么做网站哈尔滨快速建站点击查看
  • 网站的域名能换吗外贸网络推广方法
  • 网站安全建设方案需求分析WordPress15元主题
  • 购物网站建设网页推广wordpress备份到邮箱
  • 男女做那事是什 网站黑马大数据培训
  • 注册公司登录什么网站遵义做百度网站一年多少钱
  • 本地php网站搭建想要推广网页正式版
  • 国企网站建设需要注意wordpress不显示category
  • 柳州做网站有kvwordpress稳定版