当前位置: 首页 > news >正文

企业网站需要多大空间商城分销系统

企业网站需要多大空间,商城分销系统,推广引流吸引人的标题,线上销售的方法和技巧文本生成评价指标 以 BLEU 为代表的基于统计的文本评价指标基于 BERT 等预训练模型的文本评价指标 1.以 BLEU 为代表的基于统计的文本评价指标 1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具) 所有评价指标的鼻祖#xff0c;核心思想是比较 候选译文 和 参考…文本生成评价指标 以 BLEU 为代表的基于统计的文本评价指标基于 BERT 等预训练模型的文本评价指标 1.以 BLEU 为代表的基于统计的文本评价指标 1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具) 所有评价指标的鼻祖核心思想是比较 候选译文 和 参考译文 里的 n-gram 的重合程度重合程度越高就认为译文质量越高。 unigram 用于衡量单词翻译的准确性高阶 n-gram 用于衡量句子翻译的流畅性。 一般取 N 1 ~ 4然后加权平均 B L E U B P × e x p ( ∑ n 1 N W n × P n ) B P { 1 e x p ( 1 − l r / l c ) l c 机器翻译候选译文的长度 l r 最短的参考译文长度 BLEUBP \times exp(\sum_{n1}^N W_n \times P_n)\\ \begin{aligned} BP \begin{cases} 1 \\ exp(1-lr/lc) \end{cases} \end{aligned}\\ lc机器翻译候选译文的长度\\ lr最短的参考译文长度 BLEUBP×exp(n1∑N​Wn​×Pn​)BP{1exp(1−lr/lc)​​lc机器翻译候选译文的长度lr最短的参考译文长度 W n W_n Wn​ 指的是 n-gram 权重默认是均匀权重BP 是惩罚因子如果译文的长度小于最短参考译文则 BP 小于 1BLEU 的 1-gram 精确度表示译文忠于原文的程度其他的 n-gram 表示翻译的流畅度 优点 易于计算速度快。应用范围广泛 缺点 不考虑语义、句子结构不能很好的处理形态丰富的句子(所以论文中建议配备 4 条参考译文)BLEU 偏向于较短的翻译结果 2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation) ROUGE 是 BLEU 的改进版从名字上可以看出他专注于召回率而非精确率。 即他会查看有多少个参考译文中的 n 元词组出现在输出中。 ROUGE 大致分为四种(前两种常用) ROUGE-N(将 BLEU 的精确率优化为召回率)ROUGE-L(将 BLEU 的 n-gram 优化为公共子序列)ROUGE-W(将 ROUGE-L 的连续匹配给予更高的奖励)ROUGE-S(允许 n-gram 出现跳词(skip)) 初衷 在 SMT(统计机器翻译) 时代机器翻译效果很差需要同时评价翻译的准确度和流畅度。在 NMT(神经网络机器翻译) 时代神经网络能力很强翻译的结果大多都是通顺的但是可能会一本正经的胡说八道ROUGE 的出现是为了解决 NMT 的漏翻问题(低召回率)。所以 ROUGE 只适合评价 NMT不适用于 SMT因为他不评价译文的流畅与否。 ROUGE-N N 指 N-gram计算方式与 BLEU 类似但是基于召回率 ROUGE-N 主要统计 N-gram 上的召回率对于 N-gram 可以计算得到 ROUGE-N 的分数 R O U G E − N ∑ S ∈ { R e f e r e n c e S u m m a r i e s } g r a m N ∈ S ∑ g r a m N ∈ S C o u n t m a t c h ( g r a m N ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } g r a m N ∈ S ∑ g r a m N ∈ S C o u n t ( g r a m n ) ROUGE-N\frac{\sum_{S\in \{ReferenceSummaries\}gram_N\in S}\sum_{gram_N\in S} Count_{match}(gram_N)} {\sum_{S\in \{ReferenceSummaries\}gram_N \in S}\sum_{gram_N \in S} Count(gram_n)} ROUGE−N∑S∈{ReferenceSummaries}gramN​∈S​∑gramN​∈S​Count(gramn​)∑S∈{ReferenceSummaries}gramN​∈S​∑gramN​∈S​Countmatch​(gramN​)​ 分母是统计参考译文中的 N-gram 的个数分子是统计参考译文与机器译文共有的 N-gram 个数 ROUGE-L ROUGE-L 中的 L 指最长公共子序列(Longest Common Subsequence, LCS)ROUGE-L 计算的时候使用了 机器译文 C 和 参考译文 S 的最长公共子序列。 R L C S L C S ( C , S ) l e n ( S ) P L C S L C S ( C , S ) l e n ( C ) F L C S ( 1 β 2 ) R L C S P L C S R L C S β 2 P L C S R_{LCS}\frac{LCS(C,S)}{len(S)}\\ P_{LCS}\frac{LCS(C,S)}{len(C)}\\ F_{LCS}\frac{(1\beta^2)R_{LCS}P_{LCS}}{R_{LCS}\beta^2P_{LCS}} RLCS​len(S)LCS(C,S)​PLCS​len(C)LCS(C,S)​FLCS​RLCS​β2PLCS​(1β2)RLCS​PLCS​​ R L C S R_{LCS} RLCS​ 表示 召回率 P L C S P_{LCS} PLCS​ 表示精确率 F L C S F_{LCS} FLCS​ 就是 ROUGE-L一般 β \beta β 会设置一个很大的数因此 F L C S F_{LCS} FLCS​ 几乎只考虑 R L C S R_{LCS} RLCS​(召回率) ROUGE-WROUGE-S 2.基于语言模型的方法 1.PPL(困惑度) 它也可以用来比较两个语言模型在预测样本上的优劣。 低困惑度的概率分布模型或概率模型能更好地预测样本。 P P L ( W ) P ( w 1 w 2 . . . w N ) − 1 N PPL(W)P(w_1w_2...w_N)^{-\frac1N} PPL(W)P(w1​w2​...wN​)−N1​ 在对模型进行损失计算的时候直接对损失去个指数就是 PPL 了 2.基于 BERT 的评分指标 → B E R T S C O R E BERT_{SCORE} BERTSCORE​ 核心思想对两个 生成句 和 参考句(WordPiece 进行 tokenize) 分别用 BERT 提取特征然后对两个句子的每个词分别计算内积得到一个相似性矩阵。基于这个矩阵可以分别对参考句和生成句做一个最大相似性得分的累加然后归一化得到 B E R T s c o r e BERT_{score} BERTscore​ 的 precision 、 recall 和 F1 R B E R T 1 ∣ x ∣ ∑ x i ∈ x max ⁡ x ^ j ∈ x ^ x i T x ^ j P B E R T 1 ∣ x ^ ∣ ∑ x ^ j ∈ x ^ max ⁡ x i ∈ x x i T x ^ j F B E R T 2 P B E R T ⋅ R B E R T P B E R T R B E R T R_{BERT}\frac1{|x|}\sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}}x_i^T\hat{x}_j\\ P_{BERT}\frac1{|\hat x|}\sum_{\hat x_j \in \hat x} \max_{x_i \in x}x_i^T \hat x_j\\ F_{BERT}2\frac{P_{BERT}·R_{BERT}}{P_{BERT}R_{BERT}} RBERT​∣x∣1​xi​∈x∑​x^j​∈x^max​xiT​x^j​PBERT​∣x^∣1​x^j​∈x^∑​xi​∈xmax​xiT​x^j​FBERT​2PBERT​RBERT​PBERT​⋅RBERT​​ 3.总结 BLEU 优点计算速度适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配所以对短文本评价友好缺点无法衡量语义容易惩罚语义合理的表示对自由度较高的生成任务表现不佳使用场景机器翻译、文本摘要尤其是目标文本相对固定的情形 ROUGE 优点对文本摘要任务适用尤其是 ROUGE-L 可识别长的匹配序列适合评估摘要生成中较长的语义片段缺点依赖表层匹配缺乏对语义的深层次理解使用场景在摘要生成任务中表现良好 PPL 优点可量化生成文本的流畅度适合语言模型的评估缺点与人类理解不直接相关低的 PPL 不保证高质量文本。使用场景适用于评估语言模型在训练数据上的拟合程度对生成模型的流畅度 衡量有效 B E R T s c o r e BERT_{score} BERTscore​ 优点基于 BERT 等预训练模型能捕获词汇和语义的相似度弥补了传统表层指标的不足对重组、同义表达的容忍度更高缺点计算较慢依赖模型的复杂度性能依赖于使用的预训练模型使用场景适合需要语义理解的生辰任务如开放式问答和文本生成任务在多样化表达中优异。 总结 B L E U BLEU BLEU 和 R O U G E ROUGE ROUGE 更适合传统的较为结构化的生成任务PPL 适合流畅度的评估 B E R T s c o r e BERT_{score} BERTscore​ 适合更深层次的语义对齐场景
http://www.dnsts.com.cn/news/258810.html

相关文章:

  • lamp网站开发案例分析个人网页设计步骤
  • 网站建设公司知名企业昆明小程序制作公司
  • 长春朝阳网站建设电商推广渠道有哪些
  • 郑州公路建设有限公司网站网站建设模板源码
  • 网站建设包含售后好的品牌策划公司
  • 郑州企业建站详情做网站类型
  • 自主设计和创建网站上海专业网站开发
  • 营销的网站html代码特效
  • 驻马店市旅游网站建设最新网站建设视频
  • 网站开发产品经理网站制作 网站
  • 怎么查看网站用的php还是.net重庆主城推广网站建设
  • 品牌网站制作公司微信软文模板
  • 涉密项目单位网站建设流程重庆荣昌网站建设公司
  • 破解网站后台密码加强网站建设的请示
  • 建设网站的公司兴田德润在哪里Pc端网站是什么意思
  • 网站开发和嵌入式开发哪个哪些网站是做食品
  • 做网站建设需要做哪些工作博兴建设局网站
  • 自己做的网站项目面试友情链接的作用大不大
  • 重庆专业做网站的公司辽宁招标网招标公告
  • 大型购物网站排名php7跨设备网站开发pdf
  • 百度联盟的网站怎么做wordpress能做成app吗
  • 山西建设工程备案网站物流公司介绍模板
  • 360如何做网站优化网络促销分类 网站促销
  • 新建网站怎么做优化天津微信网站开发
  • 企业网站建设一条龙全包织梦网站分页问题
  • 怎么让网站被百度收录微信公众号后天网站开发
  • 小公司建设网站图片网站虚拟主机
  • 网站建设细节差异化怎么自创网页
  • 如何做自己的网站链接海外建站推广
  • 网站建设与优化推广方案河北网站建设与推广