当前位置: 首页 > news >正文

凯发网站网页设计尺寸适应

凯发网站,网页设计尺寸适应,个人网站作品,邯郸网站建设邯郸网站制作当进行一定程度的微调后#xff0c;要评价模型输出的语句的准确性。由于衡量的对象是一个个的自然语言文本#xff0c;所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的#xff0c;并且被证明可以很好的反映待评测语句的准确性要评价模型输出的语句的准确性。由于衡量的对象是一个个的自然语言文本所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的并且被证明可以很好的反映待评测语句的准确性主要包含4种BLEUMETEORROUGECIDEr。 本文只介绍BLEUROUGE两个指标其他待补充。 1、BLEU BLEU(Bilingual Evaluation understudy双语互译质量评估)是一种流行的机器翻译评价指标一种基于精确度的相似度量方法用于分析候选译文中有多少 n 元词组出现在参考译文中就是在判断两个句子的相似程度BLEU有许多变种根据n-gram可以划分成多种评价指标常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种其中n-gram指的是连续的单词个数为 nBLEU-1衡量的是单词级别的准确性更高阶的BLEU可以衡量句子的流畅性。 假设 c i c_i ci​表示候选译文【也就是机器译文(candidate)】该候选译文对应的一组参考译文【也就是人工译文(reference)】可以表示为 S i { s i 1 , s i 2 , … , s i m } \mathrm{S_{i}\{s_{i1},s_{i2},\ldots,s_{im}\}} Si​{si1​,si2​,…,sim​}将候选译文 c i c_i ci​中所有相邻的 n 个单词提取出来组成一个集合 n − g r a m n-gram n−gram一般取 n 1 , 2 , 3 , 4 n1,2,3,4 n1,2,3,4用 ω k \omega_k ωk​表示 n − g r a m n-gram n−gram中的第 k k k 个词组 h k ( c i ) h_k(c_i) hk​(ci​)表示第k个词组 ω k \omega_k ωk​在候选译文 c i c_i ci​中出现的次数 h k ( s i j ) h_k(s_{ij}) hk​(sij​)表示第 k k k 个词组 ω k \omega_k ωk​​在参考译文 s i j s_{ij} sij​中出现的次数。此时在n-gram下参考译文和候选译文 c i c_i ci​的匹配度计算公式可以表示为 p n ( c i , S ) ∑ k min ⁡ ( h k ( c i ) , max ⁡ j ∈ m h k ( s i j ) ) ∑ k h k ( c i ) \mathrm{p_n}\left(\mathrm{c_i},\mathrm{S}\right)\frac{\sum_{\mathrm{k}}\min\left(\mathrm{h_k}\left(\mathrm{c_i}\right),\max_{\mathrm{j}\in\mathrm{m}}\mathrm{h_k}\left(\mathrm{s_{ij}}\right)\right)}{\sum_{\mathrm{k}}\mathrm{h_k}\left(\mathrm{c_i}\right)} pn​(ci​,S)∑k​hk​(ci​)∑k​min(hk​(ci​),maxj∈m​hk​(sij​))​ 举例说明 candidateThe cat sat on the mat. referenceThe cat is on the mat ( c a n d i d a t e 和 r e f e r e n c e 中匹配的 n − g r a m 的个数 ) / c a n d i d a t e 中 n − g r a m 的个数 (candidate\text{和}reference\text{中匹配的}n-gram\text{的个数})/candidate\text{中}n-gram\text{的个数} (candidate和reference中匹配的n−gram的个数)/candidate中n−gram的个数 一般来说, n 取值越大参考译文就越难匹配上匹配度就会越低. 1 − g r a m 1-gram 1−gram能够反映候选译文中有多少单词被单独翻译出来也就代表了参考译文的充分性 2 − g r a m 2-gram 2−gram、 3 − g r a m 3-gram 3−gram、 4 − g r a m 4-gram 4−gram 值越高说明参考译文的可读性越好也就代表了参考译文的流畅性。 当参考译文比候选译文长单词更多时这种匹配机制可能并不准确例如上面的参考译文如果是The cat匹配度就会变成1这显然是不准确的为此我们引入一个惩罚因子。 B P ( c i , s i j ) { 1 , l c i l s i j e l − l s i j l c i , l c i ≤ l s i j BP(c_i,s_{ij}) \left\{\begin{matrix} 1\quad ,\quad l_{ci}l_{s_{ij}} \\ {e^{l-\frac{l_{s_{ij}}}{l_{c_i}}},\quad l_{ci}~\leq l_{sij}} \end{matrix}\right. BP(ci​,sij​){1,lci​lsij​​el−lci​​lsij​​​,lci​ ≤lsij​​ l l l 表示各自的长度。最终BLEU的计算公式就是 B L E U B P ⋅ exp ⁡ ( ∑ n 1 N w n log ⁡ p n ) BLEUBP \cdot \exp \left(\sum_{n1}^Nw_n \log p_n \right) BLEUBP⋅exp(n1∑N​wn​logpn​) w n w_n wn​代表每一个 n-gram 的权重一般 n n n 最大取4所以 w n 0.25 w_n 0.25 wn​0.25 。 BLEU 更偏向于较短的翻译结果它看重准确率而不注重召回率n-gram 词组是从候选译文中产生的参考译文中出现、候选译文中没有的词组并不关心原论文提议数据集多设置几条候选译文4条比较好但是一般的数据集只有一条。 2、ROUGE BLEU 是统计机器翻译时代的产物因为机器翻译出来的结果往往不通顺所以BLEU更关注翻译结果的准确性和流畅度到了神经网络翻译时代神经网络很擅长脑补自己就把语句梳理得很流畅了这个时候人们更关心的是召回率也就是参考译文中有多少词组在候选译文中出现了。 关于ROUGErecall-oriented understanding for gisting evaluation就是一种基于召回率的相似性度量方法主要考察参考译文的充分性和忠实性无法评价参考译文的流畅度它跟BLEU的计算方式几乎一模一样但是 n-gram 词组是从参考译文中产生的。分为4种类型 ROUGE解释ROUGE-N基于 N-gram 的共现共同出现统计ROUGE-L基于最长共有子句共现性精度和召回率 Fmeasure 统计ROUGE-W带权重的最长共有子句共现性精度和召回率 Fmeasure 统计ROUGE-S不连续二元组共现性精度和召回率 Fmeasure 统计 Rouge-1、Rouge-2、Rouge-N 论文[3]中对Rouge-N的定义是这样的 分母是n-gram的个数分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下 自动摘要 Y Y Y一般是自动生成的 the cat was found under the bed参考摘要 X 1 X1 X1gold standard 人工生成的 the cat was under the bedsummary的1-gram、2-gram如下N-gram以此类推 R o u g e _ 1 ( X 1 , Y ) 6 6 1.0 Rouge\_1(X1,Y)\dfrac661.0 Rouge_1(X1,Y)66​1.0分子是待评测摘要和参考摘要都出现的1-gram的个数分子是参考摘要的1-gram个数。其实分母也可以是待评测摘要的但是在精确率和召回率之间我们更关心的是召回率Recall同时这也和上面ROUGN-N的公式相同 同样 R o u g e _ 2 ( X 1 , Y ) 4 5 0.8 Rouge\_2(X1,Y)\dfrac{4}{5}0.8 Rouge_2(X1,Y)54​0.8 Rouge-L L即是LCS(longest common subsequence最长公共子序列)的首字母因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下 R l c s L C S ( X , Y ) m ( 2 ) R_{lcs}\frac{LCS(X,Y)}m\quad(2) Rlcs​mLCS(X,Y)​(2) P l c s L C S ( X , Y ) n ( 3 ) P_{lcs}\frac{LCS(X,Y)}{n}\quad(3) Plcs​nLCS(X,Y)​(3) F l c s ( 1 β 2 ) R l c s P l c s R l c s β 2 P l c s ( 4 ) F_{lcs}\frac{(1\beta^2)R_{lcs}P_{lcs}}{R_{lcs}\beta^2P_{lcs}}\quad(4) Flcs​Rlcs​β2Plcs​(1β2)Rlcs​Plcs​​(4) 其中 L C S ( X , Y ) LCS(X,Y) LCS(X,Y)是X和Y的最长公共子序列的长度m,n分别表示参考摘要和自动摘要的长度一般就是所含词的个数 R l c s R_{lcs} Rlcs​, P l c s P_{lcs} Plcs​分别表示召回率和准确率。最后的 F l c s F_{lcs} Flcs​即是我们所说的Rouge-L。在DUC中 β \beta β被设置为一个很大的数所以 R o u g e _ L Rouge\_L Rouge_L几乎只考虑了 R l c s R_{lcs} Rlcs​与上文所说的一般只考虑召回率对应。 参考文章 [1].自动文摘评测方法Rouge-1、Rouge-2、Rouge-L、Rouge-S [2].What is ROUGE and how it works for evaluation of summaries? [3].ROUGE:A Package for Automatic Evaluation of Summaries [4].BLEU评估指标 [5].评价度量指标之BLEUMETEORROUGECIDEr
http://www.dnsts.com.cn/news/269137.html

相关文章:

  • 个人做网站需要什么条件网站备案服务
  • 永州网站建设包括哪些青岛网站厉害的公司
  • 网站开发电脑配置要求wordpress 评论重复
  • 无锡市新吴区住房和建设交通局网站苏州微网站建设公司
  • 直播类网站开发上海建筑建材业招标公告
  • 深圳手机网站设计公司安卓系统开发工具
  • 天津工程建设协会网站好看网站
  • 开源的网站后台程序企业网络规划设计与实现
  • asp.net企业网站框架wordpress 配置说明
  • 广东华商网络科技有限公司网站建设和优化排名
  • 网站建设功能需求分析靓号网站建设
  • 老河口网站网站建立初步教案
  • 帝国cms个人网站模板广宁县住房和城乡建设局网站
  • 备案网站建设方案模板二网站手
  • 杭州餐饮网站建设zencart外贸建站
  • 网站管理工作wordpress等待加载动画设置
  • 百度有没有做游戏下载网站网站建设规划书txt微盘
  • 网站做留言板网页设计与网页制作的实验报告
  • 网站素材资源做网站备案需要啥资料
  • 有什么网站做可以国外的生意青岛网站建设服务器
  • 网站开发软件成本房地产公司
  • 做电影网站有风险吗全球广告公司排名
  • 商城网站建设预算知名网站规划
  • 品牌型网站建设的好处选服务好的网站建设
  • 公司网站的备案号是如何链接的配资网站建设是什么
  • 为什么vue不利于seo长清区seo网络优化软件
  • 郑州网站建设排名大约多少钱
  • 建设通网站是做什么的怎样做企业学校网站
  • 自适应网站建设多少钱可以直接打开的网页
  • 国外财经网站是怎么做的公司网站怎么做产品图片