当前位置: 首页 > news >正文

网上发布信息的网站怎么做的网站制作的收费标准

网上发布信息的网站怎么做的,网站制作的收费标准,it从零开始学大概要学多久,成都城乡建设局官方网站DoLa#xff1a;对比层解码提高大型语言模型的事实性 摘要1 引言2 方法2.1 事实知识在不同层级上演化2.2 动态早期层选择2.3 预测对比 3 实验3.1 任务3.2 实验设置3.3 多项选择3.3.1 TruthfulQA#xff1a;多项选择3.3.2 FACTOR#xff1a;维基、新闻 3.4 开放式文本生成3.4… DoLa对比层解码提高大型语言模型的事实性 摘要1 引言2 方法2.1 事实知识在不同层级上演化2.2 动态早期层选择2.3 预测对比 3 实验3.1 任务3.2 实验设置3.3 多项选择3.3.1 TruthfulQA多项选择3.3.2 FACTOR维基、新闻 3.4 开放式文本生成3.4.1 TruthfulQA3.4.2 推理链思维 3.5 GPT-4的自动评估 分析4.1 静态与动态过早层选择4.2 随机层选择基准线4.3 重复惩罚4.4 非LLaMA模型4.5 定性研究4.6 延迟 相关工作限制总结 摘要 尽管大型语言模型LLM具有很强的功能但它们容易产生幻觉即生成与预训练期间观察到的事实偏离的内容。 本文提出了一种简单的解码策略用于减少预训练的LLM中的幻觉该策略不需要依赖检索的外部知识或额外的微调。 本方法通过对比从 较高层和较低层 投影到 词汇空间 所得到的 logits 之间的差异来获得下一个token的分布利用了LLM中事实知识通常局限于特定的Transformer层的事实。这种 对比层解码DoLa的方法能够更好地表现出事实知识并减少生成不正确事实的情况。DoLa在多项选择任务和开放式生成任务中始终提高了真实性例如在TruthfulQA上将LLaMA系列模型的性能提高了12-17个百分点展示了其在使LLM可靠地生成真实事实方面的潜力。 较低层在模型中位于输入端接收原始文本或输入序列并提取更底层的特征如字符级别的信息或词法特征。较高层则位于模型的更深部分接收来自较低层的抽象特征并进行更高级别的语义理解和表示。 较低层在模型中更加接近原始输入数据特征更加具体和细粒度。这些层通常更加关注输入序列的局部特征和词法信息如词形、词频等。较低层在模型中承担了提取原始特征和语法结构的任务。相比之下较高层在模型中更加抽象和语义化。这些层能够捕捉更高级别的语义关系、推理能力和语篇信息。较高层在模型中负责对输入序列进行深入理解和建模从而生成更具语义连贯性和上下文一致性的输出。 较高层和较低层分别表示了不同级别的语义信息和词法信息。通过将这些层的输出经过投影到词汇空间可以获得每个词的logits。 词汇空间 是指在自然语言处理任务中用于表示所有可能词汇的集合。在文本处理任务中通常将文本表示为由单词或词汇构成的序列。词汇空间是包含了所有可能出现的单词或词汇的集合它定义了模型可以使用的所有词汇的范围。 在语言模型中logits表示了每个词在生成文本时的得分或概率。 1 引言 大型语言模型LLM在许多自然语言处理NLP应用中展现出了巨大的潜力。然而尽管LLM的性能不断提升并出现了新的能力它们会产生“幻觉”即生成与预训练期间观察到的真实世界事实偏离的内容这仍然是一个持续存在的挑战。这对于高风险应用例如临床/法律环境特别是可靠生成可信文本至关重要因此这代表了部署LLM的重要瓶颈。 尽管对LLM幻觉的确切原因尚不完全清楚但可能的原因之一是由于最大似然语言建模目标the maximum likelihood language modeling objective 该目标最小化了数据分布与模型分布之间的前向KL散度。这个目标可能导致模型具有Mass-seeking behavior寻找质心行为 使得LM为不完全符合训练数据中嵌入的知识的句子分配非零概率。实证上通过在有限数据上使用下一个词预测目标训练的LM已被证明会导致模型仅仅利用语言知识来识别训练示例中的表面模式而不是识别和生成从训练语料库中提取的真实世界事实。 最大似然语言建模目标Maximum Likelihood Language Modeling Objective是一种用于训练语言模型的优化目标。语言模型的目标是根据先前的文本序列预测下一个词或字符的概率分布。最大似然语言建模目标旨在最大化模型预测下一个词的概率与实际观察到的下一个词的匹配程度。 具体来说给定一个训练集包含多个文本序列可以将每个序列表示为一个由单词或字符组成的序列。对于每个序列我们可以定义一个条件概率分布表示在给定前面的文本序列的情况下下一个词或字符的预测 概率。 最大似然语言建模目标的核心思想是通过最大化训练集中所有序列的条件概率来训练模型。具体地我们希望模型的预测概率尽可能接近训练集中实际观察到的下一个词或字符。 前向KL散度Forward KL Divergence也称为KL散度损失、相对熵损失或KL散度损失项是一种用于衡量两个概率分布之间差异的度量。 在机器学习中KL散度用于比较两个概率分布P和Q之间的差异程度。前向KL散度衡量的是从P到Q的差异即将P作为参考分布衡量Q相对于P的不确定性。 具体来说对于离散概率分布前向KL散度定义如下 K L ( P ∣ ∣ Q ) Σ P ( x ) ∗ l o g ( P ( x ) / Q ( x ) ) KL(P || Q) Σ P(x) * log(P(x) / Q(x)) KL(P∣∣Q)ΣP(x)∗log(P(x)/Q(x)) 其中P(x)和Q(x)分别表示P和Q在事件x上的概率。 前向KL散度的值越大表示两个概率分布之间的差异越大。当两个分布完全相同时前向KL散度为0。当P和Q之间有差异时前向KL散度大于0。 前向KL散度可以在训练机器学习模型中用作损失函数的一部分。在训练过程中通过最小化前向KL散度可以使模型的输出概率分布逐渐接近目标概率分布从而实现模型的优化和拟合。 根据这段文字“Mass-seeking behavior” 意味着LM倾向于聚集在数据分布的中心或代表性点上并且可能会给不完全符合训练数据中嵌入的知识的句子分配非零概率。这种行为可能导致LM生成与训练语料库中提取的真实世界事实不一致的句子。换句话说LM更注重捕捉训练样本中的表面模式而不是真正识别和生成基于训练语料库的真实世界事实。 从模型可解释性的角度来看Transformer语言模型被宽泛地显示为在较低层中编码“较低级”的信息例如词性标签而在较高层中编码更多的“语义”信息。 最近Dai等2022发现预训练的BERT模型中的“知识神经元”分布在最顶层。Meng等2022表明事实知识甚至可以通过操作自回归Transformer语言模型中的特定一组前馈层来进行编辑。 本文提出利用这种知识的模块化编码通过对比解码方法来增强LM中的事实知识其中下一个词的输出概率是通过较高层和较低层得到的logits之间的差异来获得的。通过强调较高层的知识并淡化较低层或中间层的知识可以使LM更具事实性从而减少幻觉。 *这段文字描述了基于Transformer的语言模型LM在不同层次逐渐融合更多事实信息的过程。观察结果表明虽然在不同层次中“Seattle”作为下一个词的概率保持相似但正确答案“Olympia”的概率从较低层次逐渐增加到较高层次。DoLa利用这个事实通过对比两个层次之间的差异来增强LLM模型的概率使其更倾向于生成符合事实的输出。 * 图1显示了一个简单示例的这一思想的示例。虽然“Seattle”在所有层中都保持较高的概率——这可能是因为它是一个句法上合理的答案但是在较高层注入更多的事实知识后真实答案“Olympia”的概率增加了。在这种情况下通过对比不同层之间的差异可以揭示出真实答案。基于这一概念提出了一种新的解码方法即 对比层解码DoLa以更好地展示嵌入在LLM中的事实知识而无需检索外部知识或进行额外的微调。 对TruthfulQA和FACTOR Muhlgay等的实验表明DoLa能够提高LLaMA系列模型的真实性。对StrategyQA和GSM8K的思维链推理以及开放式文本生成结果使用GPT-4评估的进一步实验也显示出它可以促进更具事实性的推理。最后对于生成开放式文本的实验结果表明与原始解码方法相比DoLa能够生成更具信息量和显著更具事实性的响应从而获得更好的评分。从效率的角度来看发现DoLa在解码过程中只引入了很小的额外延迟因此可以作为一种实用且有用的解码策略用于提高LLM的真实性。 2 方法 最近的语言模型由一个嵌入层、N个堆叠的Transformer层和一个仿射层ϕ(·)组成用于预测下一个词的分布。给定一个token序列{ x 1 , x 2 , . . . , x t − 1 x_1, x_2, . . . , x_{t−1} x1​,x2​,...,xt−1​}嵌入层首先将token嵌入到一个向量序列 H 0 H_0 H0​ { h 1 ( 0 ) , . . . , h t − 1 ( 0 ) h^{(0)}_1, . . . , h^{(0)}_{t−1} h1(0)​,...,ht−1(0)​}中。然后 H 0 H_0 H0​会依次经过每个Transformer层的处理。将第 j j j层的输出表示为 H j H_j Hj​。然后词汇头 ϕ ( ⋅ ) ϕ(·) ϕ(⋅)预测下一个标记 x t x_t xt​的概率。 其中X是词汇集。 与将ϕ仅应用于最后一层不同本方法对比高层和低层的信息以获得下一个标记的概率。更具体地说对于较低的层次还使用 ϕ ( ⋅ ) ϕ(·) ϕ(⋅)计算下一个标记的概率 将语言头直接应用于中间层的隐藏状态的思想被称为 早期退出early exit即使没有特殊的训练过程也被证明是一种有效的推理方法因为Transformer层中的 残差连接residual connections 使得隐藏表示逐渐演变而不会出现突变。为了简洁起见使用 q j ( x t ) q_j(x_t) qj​(xt​)表示 q j ( x t ∣ x t ) q_j(x_t | xt) qj​(xt​∣xt)然后通过以下方式计算下一个token的概率 在传统的推理过程中模型会一直通过所有的层级进行前向计算直到最后一层得到最终的输出。然而早期退出的想法是在模型的中间层级中引入额外的预测头prediction head使得模型可以在中间层级上进行预测并提前输出结果。通过在中间层级上添加预测头模型可以在计算过程中进行一些中间的预测而不必等待整个网络完成所有的计算。这样可以在某些情况下提高推理的速度并且可以在某些层级上提供更早、更粗略的结果。这对于一些实时应用或资源受限的环境中特别有用。 在Transformer模型中残差连接residual connections是一种技术用于解决深度神经网络中的梯度消失和训练困难的问题。它通过将输入信号与层内的输出信号相加从而允许信息在网络中跳跃传播使得网络能够更容易地学习和优化。 在每个Transformer层中输入信号例如注意力机制的输入通过两个子层多头自注意力机制multi-head self-attention和前馈神经网络feed-forward neural network。残差连接就是将输入信号与子层的输出信号相加得到层内的最终输出。 数学上假设输入信号为x子层的输出为F(x)则残差连接可以表示为 o u t p u t x F ( x ) output x F(x) outputxF(x) 这种残差连接的设计使得网络的梯度能够更容易地在反向传播过程中传递。如果子层的输出F(x)接近于零那么残差连接就起到了跳过子层的作用保留了输入信号的信息。这有助于防止梯度消失并使得网络能够更快地收敛和学习更复杂的表示。 这里M层被称为早期层premature layer而最终层被称为成熟层mature layer。 操作符 F ( ⋅ , ⋅ ) F(·, ·) F(⋅,⋅) 在第2.3节中会进一步详细介绍它用于通过在对数域中计算两个分布之间的差异来对比早期层和成熟层的输出分布。在每个解码步骤中使用分布距离度量 d ( ⋅ , ⋅ ) d(·, ·) d(⋅,⋅)使用Jensen-Shannon散度来动态选择早期层该度量衡量成熟层与J中所有候选层之间的距离。第2.1节和第2.2节中会详细讨论 d ( ⋅ , ⋅ ) d(·, ·) d(⋅,⋅)。选择具有最大距离 d ( ⋅ , ⋅ ) d(·, ·) d(⋅,⋅)的层作为早期层的动机是为了最大化成熟层和早期层之间的差异。 2.1 事实知识在不同层级上演化 使用32层的LLaMA-7B模型进行初步分析。 在这里计算早期退出输出分布 q j ⋅ ∣ x t q_j· | xt qj​⋅∣xt 和最终层输出分布 q N ⋅ ∣ x t q_N· | xt qN​⋅∣xt之间的Jensen-Shannon散度JSD以展示早期退出输出与最终层输出的差异。图2显示了解码输入问题的答案时的JSD值从中可以观察到两种模式。 最终第32层和偶数层早期退出层之间的Jensen-Shannon散度。列名表示每个解码步骤中预测的下一个标记。行名表示早期退出层的层索引从第0层词嵌入层到第30层。 Jensen-Shannon散度Jensen-Shannon DivergenceJSD是一种用于衡量两个概率分布之间差异的统计度量。它是由Jensen不等式和Kullback-Leibler散度KL散度推导而来。 KL散度是用于衡量一个概率分布相对于另一个概率分布的不确定性或信息损失的度量。然而KL散度并不是对称的即KL(P||Q) ≠ KL(Q||P)其中P和Q是两个概率分布。为了解决这个非对称性JSD将两个概率分布的KL散度的平均值作为度量它的计算公式如下 J S D ( P ∣ ∣ Q ) ( K L ( P ∣ ∣ M ) K L ( Q ∣ ∣ M ) ) / 2 JSD(P||Q) (KL(P||M) KL(Q||M)) / 2 JSD(P∣∣Q)(KL(P∣∣M)KL(Q∣∣M))/2 其中M是P和Q的平均分布计算方式为M (P Q) / 2。 JSD的取值范围在0到1之间当P和Q完全相等时JSD为0当P和Q完全不同且无交集时JSD为1。 模式1 第一种模式是在预测重要的命名实体或日期时例如图2中的Wole Soyinka和1986这些需要事实知识。我们观察到在较高层级上计算得到的JSD仍然非常高。这种模式表明模型在最后几层仍在改变其预测结果并可能将更多的事实知识注入到预测中。 模式2 第二种模式是在预测功能词如was、the、to、in以及从输入问题中复制的token如first Nigerian、Nobel Prize时。在预测这些“简单”token时可以观察到从中间层开始JSD变得非常小。这一发现表明语言模型在早期层已经决定了要生成的标记因此在较高层级上几乎保持输出分布不变。这一发现也与早期退出语言模型中的假设一致。 从定性上讲当下一个词的预测需要事实知识时LLaMA似乎会在较高层级上改变预测结果。因此在突变前/后的层之间对比可能会放大来自较高层级的知识并使模型更加依赖其内部的事实知识。此外这种信息的演化似乎会逐个token地变化。在本文的方法中需要准确选择包含合理但较少事实信息的早期层而这个层级不一定总是保持在相同的早期层。本文提出了一种动态选择早期层的方法如图3所示。 2.2 动态早期层选择 为了放大对比解码的效果理想情况下应选择与最终层输出最不同的早期层作为最佳的早期层。为了在每个时间步骤上实现动态的早期层选择采用以下两个层获得的下一个词分布之间的距离度量 其中JSD(·, ·)表示Jensen-Shannon散度。在早期层的子集中选择有最大散度的层作为早期退出的目标层即早期层——第M层0 ≤ M N J J J是考虑用于早期层选择的候选早期层的集合。对于具有可变层数的LLaMA模型根据其总层数将Transformer层分为2到4个桶以便专注于与某个层级范围的对比。仍然使用验证集来根据当前任务选择最佳的桶。更多细节请参见第3.2节。 这种动态层选择策略使得模型能够根据每个令牌的复杂性和难度选择最合适的早期层从而更好地利用Transformer模型不同层级学到的知识。 除了动态层选择策略外还可以考虑一种非常简单的方法即在所有可能的早期层上使用验证集进行穷举实验并选择具有最佳验证性能的层。将这种简单方法称为DoLa-static。 然而DoLa-static存在以下缺点 1层级的搜索空间较大2最佳层级对数据分布敏感因此需要符合数据分布的验证集。 本文提出的动态层选择策略通过缩小层级搜索空间并减少对符合数据分布的验证集的依赖从而缓解了静态层选择方法的缺点。在第4.1节中对比了这种动态策略与DoLa-static方法的有效性。 2.3 预测对比 根据第2.2节获得的早期层和成熟层目标是放大成熟层的输出同时降低早期层的输出。按照Li等人2022提出的对比解码方法从成熟层的对数概率中减去早期层输出的对数概率。然后使用得到的分布作为下一个词的预测结果如图1所示。 类似于Li等人2022年的方法子集 V h e a d x t ∣ x t ∈ X V_{head}x_t|x_{t}∈ X Vhead​xt​∣xt​∈X被定义为是否具有足够高的成熟层输出概率的token 如果成熟层中一个token的预测概率过小那么它很可能不是一个合理的预测。因此将该令牌的概率设置为零以最小化误报和漏报的情况。在DoLa的背景下误报指的是一个不合理的令牌在对比后由于不同层对这些不合理令牌的不稳定低概率范围可能会被奖励高分。漏报指的是当模型对一个简单决策非常自信时高分令牌的输出概率在不同层中变化不大导致对比后得分较低所以需要在这种情况下强制模型仍然从这些高分令牌中进行选择。这种策略被称为自适应可信度约束。 重复惩罚Repetition Penalty 是为了解决DoLa方法可能导致模型生成语法不正确的段落的问题。尽管在实证研究中没有观察到这样的问题但是发现了DoLa生成的分布有时倾向于重复先前生成的句子特别是在生成长的思维链推理序列时。因此在解码过程中引入了Keskar等人2019年提出的简单重复惩罚方法其中使用了θ 1.2。关于重复惩罚的实证分析结果在第4.3节中进行了展示。 3 实验 3.1 任务 考虑两种类型的任务多项选择任务和开放式生成任务。 对于多项选择任务使用了TruthfulQA和FACTOR新闻/维基。 对于开放式生成任务使用了TruthfulQA由经过微调的GPT-3评估以及涉及推理的任务特别是StrategyQA和GSM8K。 这两个任务需要进行思维链推理。最后使用Vicuna QA基准提出的GPT-4自动评估来评估作为聊天机器人助手的性能。 3.2 实验设置 使用了LLaMA模型的四个规模7B、13B、33B、65B并将它们与三个基线进行比较 1原始解码根据任务使用贪婪解码或抽样解码 2对比解码CD其中LLaMA-7B作为业余模型而LLaMA-13B/33B/65B作为专家模型 3推理时间干预ITI。ITI使用LLaMA-7B和在TruthfulQA上训练的线性分类器。 实验重点是对比DoLa中的层差异和CD中的模型差异没有使用额外的技术例如限制早期层或业余模型的上下文窗口以保持实验设置的简洁。 将自适应可信度约束α设置为0.1重复惩罚θ设置为1.2以符合之前的研究。 在动态早期层选择中将Transformer层分成多个桶并选择一个桶作为候选层J。对于LLaMA-7B32层使用两个桶[0, 16), [16, 32) 对于LLaMA-13B40层它们是[0, 20), [20, 40) 对于LLaMA-33B60层有三个桶[0, 20), [20, 40), [40, 60) 对于LLaMA-65B80层有四个桶[0, 20), [20, 40), [40, 60), [60, 80)。 第0层指的是第一个Transformer层之前的词嵌入输出。 为了提高效率只考虑偶数层第0层、第2层等作为候选层。这种设计限制了超参数搜索空间只需要进行2-4次验证运行。 使用两折交叉验证TruthfulQA-MC、FACTOR或特定的验证集GSM8K、StrategyQA来选择最佳的桶。对于缺乏验证集的Vicuna QA使用GSM8K集合中的最佳桶。 3.3 多项选择 3.3.1 TruthfulQA多项选择 使用Lin等人2022年和Li等人2023年的默认QA提示。 在自适应可信度约束中将 − ∞ -∞ −∞替换为-1000以避免破坏语言似然分数。对于似然分数的计算重复惩罚是不必要的。使用两折交叉验证来确定候选层的最佳桶基于MC3分数。表1中的结果显示LLaMA模型在四个规模上的性能显著提升优于ITI和CD并且证实了我们方法的有效性。在两折交叉验证中较高的层一直被选择7B[16, 32)13B[20, 40)33B[40, 60)65B[60, 80)。 3.3.2 FACTOR维基、新闻 在FACTOR的多项选择任务中每个示例都有一段长段落和四个完整的句子选项其中一个是正确答案。使用其维基和新闻子集作为两折交叉验证的两个折。在自适应可信度约束中使用-1000而不是 − ∞ -∞ −∞。表1显示本方法通常优于基线2-4%比CD更有效除了13B模型在维基子集上的情况。对于FACTOR所选择的候选层一直较低7B为[0, 16)13B/33B/65B为[0, 20)。这与TruthfulQA选择较高的层不同。这是因为TruthfulQA的多项选择项目具有短的关键事实回答而FACTOR的回答是长句子的完成。正如在第2.1节中指出的与较高的层进行对比对于关键事实效果更好但对于包含许多易于预测标记的句子较低的层可能更合适。 3.4 开放式文本生成 3.4.1 TruthfulQA 在开放式的TruthfulQA设置中真实性和信息性由两个经过微调的GPT-3进行评判。通过不回答问题即回答“我没有评论”可以轻松获得100%的真实性得分但信息性得分为0%。在实验中遵循第3.3.1节中的两折交叉验证结果使用较高的候选层进行解码。 使用与Lin等人2022年和Li等人2023年相同的默认QA提示。表2显示本文的方法始终提高了真实性得分保持信息性在90%以上并且拒绝回答的比例%Reject低于10%。它在四个LLaMA模型上将整体%Truth*Info得分提高了12%-17%达到了ITI的性能水平而ITI依赖于带有人工标签的监督训练与本文的方法不同。 CD提高了真实性但经常拒绝回答生成“我没有评论”这样的回答例如LLaMA-33B模型有超过60%的时间。这影响了它的%TruthInfo得分。怀疑这是因为CD在对比时使用LLaMA-7B而33B和7B模型在大多数问题上具有类似的知识水平。主要的区别在于33B在遵循指示方面更好这解释了为什么CD经常回答“我没有评论”因为这个答案在指示提示中被指明。 3.4.2 推理链思维 在StrategyQA和GSM8K上评估了我们的解码策略这些任务不仅需要准确性还需要推理链思维CoT能力以获得良好的性能Wei等人2022b。我们随机抽样了GSM8K训练集的10%作为这两个任务的验证集。最佳层桶为7B的[0, 16)13B/33B/65B的[0, 20)与FACTOR的结果一致表明与较低层进行对比对于推理任务是有效的。 StrategyQA 在StrategyQA上评估了DoLa这是一个需要多跳策略回答的数据集使用了CoT提示。如表2所示DoLa在四个LLaMA规模上提高了1-4%的准确率而CD大多降低了性能。这表明将大型模型与较小模型进行对比可能会损害推理能力因为较小模型也具有一定水平的推理能力。相反本文的方法在缺乏完整推理能力的较低层之间进行对比展示了其有效性并且对比不同层而不是不同模型是必要的。 GSM8K 在GSM8K上测试了DoLa这是一个需要事实知识和算术推理的数学问题基准。表2显示除了7B外大多数LLaMA规模的准确率提高了2%。这表明即使在需要算术推理的任务中使用DoLa对比较高或较低层是有益于性能的。 3.5 GPT-4的自动评估 在Vicuna QA基准测试上评估了本解码方法该测试使用GPT-4进行自动评估以评估开放式聊天机器人的能力。根据GSM8K/FACTOR的验证结果使用较低层作为解码的候选层使用四个LLaMA模型。GPT-4进行的成对比较评分结果如图4所示显示DoLa在基线模型中表现出色特别是在13B和33B模型中。这表明DoLa即使在开放式聊天机器人场景中也很有效。在第4.5.4节的分析中还展示了一些定性研究的例子。 分析 4.1 静态与动态过早层选择 引入了DoLa的一个变体即DoLa-static它在整个解码过程中选择一个固定的层进行对比。通过列举来自所有层的DoLa-static结果展示了GSM8K验证集的一些结果图5以及附录B中FACTOR的结果图7。 在图5a中通过对比较低的层DoLa-static的性能更好。一些“最佳”层如LLaMA-7B中的第10层甚至超过了DoLa的表现。然而这些最佳层在不同的数据集上具有敏感性使得DoLa-static在没有任务特定验证集的情况下不够通用而实际应用中可能并不总是可用。 随机抽取了另外10%的GSM8K子集并在图5b中展示了结果DoLa-static在这两个10%的GSM8K子集中显示出不同的最佳层。在子集1中第10层是最佳层而在子集2中第2层是最佳层图5a和5b。使用子集1的最佳层来处理子集2会降低其性能突显了DoLa-static对固定层选择的敏感性。相比之下通过对比较低的层DoLa在两个子集中都保持了较高的得分几乎与表现最佳的DoLa-static层相匹配突显了DoLa的稳健性。此外DoLa简化了超参数搜索空间它只需要进行2-4次桶测试几乎比DoLa-static需要的对所有层进行的16-40次运行少10倍。 4.2 随机层选择基准线 提出的方法中一个问题是这种动态层选择方法有多优化 为了进行比较使用了一个类似于DoLa的“随机”基准线但是层是随机选择的。表3中的结果显示这种随机方法的表现比原始基准线要差突显了基于JSD的层选择策略的重要性。 4.3 重复惩罚 之前讨论过DoLa有时会重复内容特别是在StrategyQA和GSM8K中。为了减轻这个问题引入了重复惩罚。图6显示这种惩罚改善了DoLa在StrategyQA上的表现但对基准线的表现产生了负面影响。对于CD惩罚会带来轻微的提升但仍不如基准线有效。GSM8K的相同结果包含在附录D中。 4.4 非LLaMA模型 为了检查DoLa在LLaMA系列之外的模型上的适用性在MPT-7B模型MosaicML2023年上对DoLa进行了测试。表4中的初步结果显示在大多数数据集上都获得了性能提升但在GSM8K上没有。这表明DoLa具有在各种Transformer模型中推广的潜力。GSM8K的例外情况可能源于MPT-7B的有限数学能力。 4.5 定性研究 在表5中展示了使用LLaMA-33B回答的TruthfulQA示例包括使用DoLa和不使用DoLa的得分通过经过微调的GPT-3对其真实性和信息量进行评分。这些答案是通过贪婪解码确定性地生成的。在第一个示例中基准线生成了合理但不正确的日期“1776年7月4日”而DoLa则输出了正确的日期“1776年8月2日”。在第二个示例中基准线提供了错误的建议“在报失人员前等待24小时”而DoLa提供了真实的回应。这些实例突显了DoLa在避免生成虚假信息方面的有效性。 在第三个示例中与基准线相比DoLa在真实性方面表现较差。基准线表示“我没有评论”在真实性得分为1.0信息量得分为0.0。相反DoLa提供了详细但不正确的信息在真实性得分为0.0信息量得分为1.0。附录E中包含了更多的TruthfulQA示例。附录F中还包含了更长回答的其他Vicuna QA示例。 4.6 延迟 还评估了DoLa对解码延迟的影响并与基准线进行了比较两者都采用贪婪解码。表6中的结果显示DoLa将解码时间增加了1.01到1.08倍。这种适度的增加表明本文的方法可以广泛应用成本增加很小甚至可以忽略不计。 相关工作 限制 虽然DoLa方法增强了LLM的真实性但它也有一些限制需要注意 着重于真实性尚未探索我们的方法在其他方面如指令遵循[Wei et al., 2021]或从人类反馈中学习[Ouyang et al., 2022]的表现如何。仅限于推理依赖现有的架构和预训练参数没有使用人类标签或事实知识库进行微调[Li et al., 2023]限制了可能的改进。不依赖外部知识本方法仅依赖模型的内部知识而不使用外部检索模块例如一些检索增强语言模型所做的那样[Izacard et al., 2022; Borgeaud et al., 2022; Ram et al., 2023]。因此它无法纠正训练过程中获取的错误信息。 需要注意的是我们的方法提供了一种基础性改进理论上适用于任何基于Transformer的LLM。上述限制可以通过将上述要素与我们的解码策略结合的未来工作进一步解决。 总结
http://www.dnsts.com.cn/news/206433.html

相关文章:

  • 做网站需要多少资金流量套餐网站
  • 从化网站建设服务阿里云网站建设模板
  • 简单 手机 网站 源码flash个人网站片头
  • 网站内容页显示不出来建设银行无锡分行招聘网站
  • 做电影网站投资多少做pc端网站策划
  • 网站建设包括内容全屋定制加盟哪个品牌好
  • 网站与网页区别是什么意思网络维护员
  • 做网站发广告周村区住房和城乡建设厅网站
  • 开发高端网站建设百度推广 网站要备案吗
  • 中国建设银银行招聘网站wordpress 图标不显示缩略图
  • iis 网站目录权限设置建设网站的情况说明
  • 黄冈网站建设公司制作网站网站筹建中
  • 杭州制作网站的公司简介小程序源码免费
  • 上海手机网站建设anker 网站谁做的
  • 做网站维护有前途吗网易企业邮箱属于什么类型
  • 做网站要通过网信办备案吗遵义网站建设制作公司
  • 广州旅游网站建设阿里指数app下载
  • 管理系统网站开发网上做论文的网站
  • 宿松网站建设设计什么软件可以做dj视频网站
  • 网站服务器速度对seo有什么影响?浙江高端建设网站
  • 江苏优化网站哪家好电商导购网站开发
  • 湖南省军区强军网网站群建设项目优秀的摄影作品网站
  • 专业网站建设质量推荐科技自立自强
  • 一个服务器可以建多少个网站新闻wordpress主题
  • 网站排名规则网站接入服务提供商
  • 济南卓远网站建设公司电商网站html模板下载
  • 网站建设作用 名词解释大型门户网站后端
  • 装潢公司网站设计与制作网页升级紧急通知区域
  • 定制网站建设服务平台成都管控最新通告
  • 网站建设与运营的公司php做网站和小程序很好