官网网站系统,做网站后台用什么语言好,大理建设投资有限公司网站,网站做邮箱论文速读|Sneaking Syntax into Transformer Language Models with Tree Regularization 论文信息#xff1a; 简介#xff1a; 本文的背景是基于人类语言理解的组合性特征#xff0c;即语言处理本质上是层次化的#xff1a;语法规则将词级别的意义组合成更大的成分的意义 简介 本文的背景是基于人类语言理解的组合性特征即语言处理本质上是层次化的语法规则将词级别的意义组合成更大的成分的意义然后再组合成句子。然而当前的神经模型如变换器Transformers缺乏对这种树状结构的直接归纳偏差。尽管变换器在大规模数据上进行预训练以实现合理的泛化但最新的研究表明即使是最先进的大型语言模型LLMs仍然在组合性泛化方面存在困难即在新环境中理解熟悉的词汇。因此引入语法归纳偏差可能会在变换器语言模型中实现更稳健和数据高效的学习。 本文的动机是基于以下几个方面首先人类语言处理的层次化特征表明语法结构在语言理解中起着关键作用。其次尽管变换器模型在处理大量数据时表现出色但它们在组合性泛化方面仍存在不足。因此本文旨在通过引入语法归纳偏差来增强变换器模型的语法泛化能力同时保持模型的表达能力和推理效率。此外本文还希望通过这种方法提高模型在少数据情况下的样本效率。 论文方法 本文提出了一种名为TREEREG的方法这是一种辅助损失函数用于将输入句子的成分句法分析转换为对向量隐藏状态的一组可微分的正交性约束。 TREEREG通过以下步骤实现 Span Contextual Independence Score (SCIN)对于任何跨度通过量化独立性来定义SCIN。具体来说对于一个跨度Si;j其独立性通过其表示向量与上下文表示向量的正交性来衡量。 TREEREG Loss给定一个句子STREEREG损失LTR偏向于提高所有成分句法分析中的跨度的SCIN同时降低其他跨度的SCIN。具体来说对于一个成分Si;j首先计算分割分数s(i, q, j)然后使用这些分数计算跨度级别的对数损失l(i,j)。LTR是所有成分的跨度级别损失l(i,j)的总和。 恢复解析树在推理过程中可以使用自顶向下的贪婪解码算法从隐藏状态中恢复由TREEREG约束编码的唯一解析树。 论文实验 实验部分涉及训练变换器语言模型LMs来执行两个诊断任务时态变化Tense Inflection, TI和疑问句形成Question Formation, QF。这些任务是从PCFGs概率上下文无关文法中派生出来的。 1时态变化TI模型接收一个过去时态的输入并需要生成相同输入的现在时态版本。评估指标是目标动词正确变化的比例。 2疑问句形成QF模型需要将一个陈述句转换为疑问句。评估指标是解码疑问句的第一个词的准确性。 Table 1显示了在TI和QF任务上的评估结果包括平均测试准确性Avg. Acc.、最佳测试准确性Best Acc.以及测试性能收敛所需的平均迭代次数itr.。 时态变化TI Base LM平均准确性为47.2%最佳准确性为71.1%平均收敛迭代次数为427k。 TREEREG LM平均准确性为90.4%最佳准确性为98.3%平均收敛迭代次数为391k。 疑问句形成QF Base LM平均准确性为42.1%最佳准确性为66.9%平均收敛迭代次数为460k。 TREEREG LM平均准确性为99.6%最佳准确性为100.0%平均收敛迭代次数为43k。 论文链接
https://arxiv.org/abs/2411.18885