当前位置: 首页 > news >正文

古镇镇建网站公司网站建设怎样中英文

古镇镇建网站公司,网站建设怎样中英文,微信公众号的开发,天津抖音seo需求 **文本推荐#xff1a;**有多个文本字符串#xff0c;如何设计一个简单的统计方法#xff08;从词频的角度设计#xff09;#xff0c;来计算出多个文本字符串两两之间的相似度#xff0c;并输出大于指定相似度阈值的文本 分析理解 使用Java实现文本相似度计算的…需求 **文本推荐**有多个文本字符串如何设计一个简单的统计方法从词频的角度设计来计算出多个文本字符串两两之间的相似度并输出大于指定相似度阈值的文本 分析理解 使用Java实现文本相似度计算的一种方法是通过构建词频向量并计算余弦相似度具体介绍如下简单易懂 代码实现 复杂粘贴可以直接运行 !-- 使用HanLP进行分词 --dependencygroupIdcom.hankcs/groupIdartifactIdhanlp/artifactIdversionportable-1.8.4/version/dependencyimport com.hankcs.hanlp.tokenizer.StandardTokenizer; import java.util.*; import java.util.stream.Collectors;public class ChineseTextRecommender {// 使用HanLP进行中文分词// 构建词频向量// 假设我们有两个文本文档我们想衡量它们的主题相似性。每个文档可以被表示为一个向量其中包含词频TF或TF-IDF值。// 文档A: the cat sat on the mat on the mat// 文档B: the cat and the dog played// 我们选择几个关键词the, cat, sat, on, mat, and, dog, played。每个词在文档中出现的次数词频可以构成一个向量。// 向量A: [2, 1, 1, 1, 2, 0, 0, 0]the, cat, sat, on, mat, and, dog, played// 向量B: [1, 1, 0, 0, 0, 1, 1, 1]public static MapString, Integer buildTermVector(String text) {ListString words StandardTokenizer.segment(text).stream().map(term - term.word).collect(Collectors.toList());MapString, Integer termVector new HashMap();for (String word : words) {termVector.put(word, termVector.getOrDefault(word, 0) 1);}return termVector;}// 计算余弦相似度public static double cosineSimilarity(MapString, Integer vectorA, MapString, Integer vectorB) {double dotProduct 0.0;double normA 0.0;double normB 0.0;for (String key : vectorA.keySet()) {dotProduct vectorA.get(key) * (vectorB.getOrDefault(key, 0));normA Math.pow(vectorA.get(key), 2);}for (String key : vectorB.keySet()) {normB Math.pow(vectorB.get(key), 2);}if (normA 0 || normB 0) {return 0.0;}return dotProduct / (Math.sqrt(normA) * Math.sqrt(normB));}// 推荐与指定文本相似度高的文本 texts为待判断文本列表public static ListString recommendTexts(ListString texts, String targetText, double threshold) {MapString, Double similarityScores new HashMap();MapString, Integer targetVector buildTermVector(targetText);for (String text : texts) {MapString, Integer textVector buildTermVector(text);double similarity cosineSimilarity(targetVector, textVector);similarityScores.put(text, similarity);System.out.println(text ----Similarity: similarity);}return similarityScores.entrySet().stream().filter(entry - entry.getValue() threshold).map(Map.Entry::getKey).collect(Collectors.toList());}public static void main(String[] args) {// 相似度分别为0.91 0.59 0.54 0.799 0.791ListString texts Arrays.asList(这是一个测试文档吗, 这是第二个文档, 这是第三个文档,这是一个文档吗,这是第一个测试文档吧哈哈);String targetText 这是一个测试文档;double threshold 0.8; // 理论上阈值在0.5左右都可以接受ListString recommendedTexts recommendTexts(texts, targetText, threshold);System.out.println(推荐文本:);recommendedTexts.forEach(System.out::println);} }输出结果
http://www.dnsts.com.cn/news/125499.html

相关文章:

  • 网站后台数据分析怎么做企业数字化建设公司
  • wordpress整站克隆济南官网seo推广
  • 新闻资讯网站php源码通化建设工程信息网站
  • 电子商务网站建设需求文档旅游网站管理系统php
  • 公司网站网页制作建议辽宁省交通建设投资集团官方网站
  • 15年做哪个网站能致富100个经典商业案例分析
  • 移动局域网ip做网站山东做网站
  • 建筑网站首页大图海南工程网站建设
  • 哪个网站微博做的最好深圳华强北化妆品
  • 南昌建设医院官方网站凡客优品家居官网
  • 免费追剧网站大全室内装潢
  • 在县城怎么做网站公司net framework可以用来做网站吗
  • 在线做网站需要什么门业网站 源码
  • wordpress的知名网站wordpress 文章 形式
  • 网站建设项目创业计划书运营团队架构
  • 广州做网站哪个公司做得好数据开发
  • 网站开发命名规则wordpress 能做周报
  • 网站设计网站建设专业二级网站建设方案模板
  • 佛山网站建设模板建站如何用自己的域名做网站
  • 大学生建设什么网站好互联网app推广工作怎么样
  • 怎样围绕网站专题发展来做ppt网站建设挣钱吗?
  • 网站建设源码导入湛江做网站需要什么
  • 电商设计师联盟网站网站域名品牌怎么写
  • 南通学校网站建设建设阅读网站的研究意义
  • 南宁较好的网站建设公司做赌钱网站
  • 网站建设教程这篇苏州久远网络淮南网站建设淮南
  • 有没有做网站源代码修改的php网站权限设置
  • 泉州做网站优化多少钱天津电商网站开发
  • 做西点的网站广州必玩的景点推荐
  • 自建网站平台有哪些功能网页制作基础教程第二版cc6照片