潍坊网站建设制作,页面预加载wordpress,宝塔系统怎么建设网站,网站建设低价本文是LLM系列文章#xff0c;针对《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻译。 LM-INFiNITE#xff1a;大语言模型的一个简单长度上推广 摘要1 引言2 相关工作3 LLMs中OOD因素的诊断4 LM-INFINITE5 评估6 结论和未来工作 …本文是LLM系列文章针对《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻译。 LM-INFiNITE大语言模型的一个简单长度上推广 摘要1 引言2 相关工作3 LLMs中OOD因素的诊断4 LM-INFINITE5 评估6 结论和未来工作 摘要
近年来基于Transformer的大型语言模型LLM在各个领域的性能都有了显著的进步。随着这些LLM被部署用于越来越复杂的任务它们通常需要进行更长的推理过程或理解更大的上下文。在这些情况下LLM在长序列上的长度泛化失败变得更加突出。大多数预训练方案将训练序列截断为固定长度例如对于LLaMa为2048。LLM通常很难在较长的上下文后生成流畅的文本更不用说执行下游任务了即使是为了解决这个问题而设计的相对位置编码。常见的解决方案如在较长的语料库上进行微调通常涉及令人生畏的硬件和时间成本并且需要仔细的训练过程设计。为了更有效地利用现有LLM的生成能力我们从理论和实证上研究了导致这一问题的主要分布外OOD因素。受此诊断的启发我们提出了一种简单而有效的飞行长度泛化解决方案LM Infinite它只涉及 Λ \Lambda Λ形注意力掩码和距离限制而不需要参数更新或学习。我们发现它适用于使用相对位置编码方法的各种LLM。LM Infinite在 O ( n ) \mathcal{O}(n) O(n)时间和空间上具有计算效率并在ArXiv和OpenWebText2数据集上对多达32k个token表现出一致的流畅性和生成质量解码速度提高了2.72倍。在诸如密钥检索之类的下游任务中它继续处理比普通模型立即失败的训练长度长得多的输入。
1 引言
2 相关工作
3 LLMs中OOD因素的诊断
4 LM-INFINITE
5 评估
6 结论和未来工作
在本文中我们对具有相对位置编码的基于Transformer的LLM中的长度泛化问题提供了解释和简单的即时解决方案。我们首先对可能导致长度泛化失败的OOD分布外因素进行理论和实证分析。基于这些直觉我们提出了LM Infinite一种无需任何参数更新的即插即用的治疗方法。我们的经验评估表明我们可以让多个开源SoTA LLM保持其原始生成质量类似于明确微调后的性能。LM Infinite还将任务求解能力扩展到比训练样本长得多的序列。未来的工作可以探索如何让LM Infinite更好地感知被掩盖的注意力区域中的信息。我们希望LM Infinite的计算效率和易用性使没有大量计算资源的研究人员也能在长序列上使用LLM。