桌面上链接网站怎么做,营销公司排行,未来网站建设公司的走向,微信里面如何做网站大家好#xff0c;今日必读的大模型论文来啦#xff01;
1.MIT新研究#xff1a;并非所有语言模型特征都是线性的
最近的研究提出了线性表征假说#xff1a;语言模型通过操作激活空间中概念#xff08;“特征”#xff09;的一维表征来执行计算。与此相反#xff0c;来…
大家好今日必读的大模型论文来啦
1.MIT新研究并非所有语言模型特征都是线性的
最近的研究提出了线性表征假说语言模型通过操作激活空间中概念“特征”的一维表征来执行计算。与此相反来自麻省理工学院MIT的研究团队探讨了某些语言模型表征是否可能本质上是多维的。
他们首先为不可还原的多维特征下了一个严格的定义该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发他们设计了一种可扩展的方法利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括可解释示例例如代表星期和月份的 circular 特征。他们确定了一些任务在这些任务中这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后通过对 Mistral 7B 和 Llama 3 8B 的干预实验他们证明这些 circular 特征确实是这些任务中的基本计算单元。
论文链接 https://arxiv.org/abs/2405.14860 GitHub 地址 https://github.com/JoshEngels/MultiDimensionalFeatures
2.Google DeepMind 推出图像条件扩散模型 Semantica
Google DeepMind 团队研究了在不进行微调的情况下将图像生成模型适应不同数据集的任务。为此他们提出了一种图像条件扩散模型——Semantica其能够根据条件图像的语义生成图像。Semantica 完全是在网络规模的图像对上进行训练的也就是说它接收网页中的随机图像作为条件输入并对同一网页中的另一张随机图像进行建模。他们的实验凸显了预训练图像编码器的表现力以及基于语义的数据过滤对实现高质量图像生成的必要性。一旦经过训练只需使用数据集中的图像作为输入它就能自适应地从该数据集中生成新图像。
论文链接 https://arxiv.org/abs/2405.14857
3.Visual Echoes用于音频-视觉生成的简单统一 Transformer
近年来随着逼真的生成结果和广泛的个性化应用基于扩散的生成模型在视觉和音频生成领域都获得了极大的关注。与文本-图像生成或文本-音频生成的巨大进步相比音频-视觉生成或视觉-音频生成的研究相对缓慢。近期的音频-视觉生成方法通常采用大型语言模型或可组合扩散模型。
在这项工作中来自索尼的研究团队没有为音频-视觉生成设计另一个大型模型而是退后一步展示了一个在多模态生成中尚未得到充分研究的简单轻量级生成 Transformer可以在图像-音频生成中取得优异的效果。Transformer 在离散的音频和视觉矢量量化 GAN 空间中运行并以掩码去噪方式进行训练。训练完成后无需额外的训练或修改即可部署现成的无分类器引导从而获得更好的性能。由于 Transformer 模型是模态对称的因此也可直接用于音频-图像生成和协同生成。在实验中他们发现这一简单方法超越了最近的图像-音频生成方法。
论文链接 https://arxiv.org/abs/2405.14598
4.大型语言模型的分布式推测
加速大型语言模型LLM的推理是人工智能领域的一项重要挑战。
来自魏茨曼科学研究所、英特尔和麻省理工学院MIT的研究团队提出了一种新颖的分布式推理算法——分布式推测推理DSI与推测推理SI和传统的自回归推理non-SI相比其推理速度更快。与其他自回归推理算法一样DSI 在冻结的 LLM 上工作不需要训练或架构修改并能保留目标分布。
之前关于 SI 的研究表明与 non-SI 相比DSI 算法的经验速度有所提高但这需要快速、准确的起草 LLM。在实践中现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现当使用速度较慢或准确度较低的起草员时SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快弥补了这一差距。通过协调目标和起草器的多个实例DSI 不仅比 SI 更快而且还支持 SI 无法加速的 LLM。
仿真显示在现实环境中现成的 LLMs 的速度都有所提高DSI 比 SI 快 1.29-1.92 倍。
论文链接 https://arxiv.org/abs/2405.14105
5.改进分布匹配蒸馏实现快速图像合成
最近的一些方法表明将扩散模型提炼成高效的一步生成器大有可为。其中分布匹配蒸馏法DMD可以生成在分布上与其“教师”模型相匹配的一步生成器而无需强制与“教师”的采样轨迹一一对应。然而为了确保稳定的训练DMD 需要额外的回归损耗该损耗是使用由“教师”通过多步确定性采样器生成的大量噪声图像对计算得出的。这对于大规模文本到图像的合成来说成本很高而且限制了“学生”模型的质量使其与“教师”的原始采样路径过于紧密地联系在一起。
来自麻省理工学院MIT和 Adobe 的研究团队提出了一套能解除这一限制并改进 DMD 训练的技术——DMD2。首先他们消除了回归损失和昂贵的数据集构建需求。他们证明了由此产生的不稳定性是由于假批评家没有准确估计生成样本的分布并提出了一种双时间尺度更新规则作为补救措施。其次他们将 GAN 损失集成到蒸馏过程中以区分生成样本和真实图像。这样他们就能在真实数据上训练“学生”模型减轻“教师”模型对真实分数估计的不完美提高质量。最后他们修改了训练程序以实现多步采样。在这种情况下他们通过在训练期间模拟推理时间生成器采样发现并解决了训练-推理输入不匹配的问题。
综合来看他们的改进为一步图像生成设定了新的基准在 ImageNet-64x64 上的 FID 分数为 1.28在零样本 COCO 2014 上的 FID 分数为 8.35尽管推理成本降低了 500 倍但仍超过了原来的“教师”。此外他们还展示了这一方法可以通过提炼 SDXL 生成百万像素图像在几步法中展示了卓越的视觉质量。
论文链接 https://arxiv.org/abs/2405.14867 项目地址 https://tianweiy.github.io/dmd/
6.ReVideo通过运动和内容控制重塑视频
尽管在利用扩散模型生成和编辑视频方面取得了重大进展但实现精确的本地化视频编辑仍是一项巨大挑战。此外现有的大多数视频编辑方法主要集中在改变视觉内容上对动作编辑的研究十分有限。
在这项研究中来自北京大学和腾讯的研究团队及其合作者提出了一种新颖的“重塑视频”ReVideo尝试通过指定内容和动作在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现而基于轨迹的运动控制则提供了直观的用户交互体验。ReVideo 解决了内容和运动控制之间的耦合和训练不平衡问题。为了解决这个问题他们开发了一种三阶段训练策略从粗到细逐步解耦这两个方面。此外他们还提出了一个时空自适应融合模块以整合不同采样步骤和空间位置的内容和运动控制。
广泛的实验证明ReVideo 在几种精确的视频编辑应用中具有良好的性能即1局部改变视频内容同时保持运动不变2保持内容不变同时定制新的运动轨迹3同时修改内容和运动轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑而无需特定的训练这证明了它的灵活性和鲁棒性。
论文链接 https://arxiv.org/abs/2405.13865 项目地址 https://mc-e.github.io/project/ReVideo/
7.360智脑技术报告
360智脑团队提出的 360Zhinao 模型具有 7B 参数大小和包括 4K、32K 和 360K 的上下文长度。为了实现预训练的快速发展他们建立了一个稳定而灵敏的消融环境以最小的模型规模对实验运行进行评估和比较。在这样的指导下他们完善了数据清洗和合成策略在 3.4T token 上对 360Zhinao-7B-Base 进行预训练。他们还主要强调对齐过程中的数据通过过滤和重新格式化努力平衡数量和质量。有了量身定制的数据360Zhinao-7B 的上下文窗口很容易扩展到 32K 和 360K。RM 和 RLHF 根据 SFT 进行训练并可靠地应用于特定任务。所有这些贡献使得 360Zhinao-7B 的性能在类似规模的模型中具有竞争力。
论文链接 https://arxiv.org/abs/2405.13386 GitHub 地址 https://github.com/Qihoo360/360zhinao
8.GameVLM基于视觉语言模型和零和博弈的机器人任务规划决策框架
GPT-4V 等预训练视觉语言模型VLM具有突出的场景理解和推理能力因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比视觉语言模型在多模态信息解析和代码生成方面具有很强的优势并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力但它也面临着幻觉、语义复杂性和上下文有限等挑战。
为了解决这些问题来自复旦大学的研究团队提出了一种多智能体框架——GameVLM从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说决策智能体用于规划任务专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性并确定最佳解决方案。在真实机器人上进行的实验结果表明所提出的框架非常有效平均成功率高达 83.3%。
论文链接 https://arxiv.org/abs/2405.13751
9.AlignGPT具有自适应对齐功能的多模态大型语言模型
多模态大型语言模型MLLM被广泛认为是探索通用人工智能AGI的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标目前的 MLLM 通常采用两阶段训练模式预训练阶段和指令微调阶段。
尽管这些模型取得了成功但在对齐能力建模方面仍存在不足。首先在预训练阶段模型通常假定所有图像-文本对都是统一对齐的但实际上不同图像-文本对之间的对齐程度并不一致。其次目前用于微调的指令包含多种任务不同任务的指令通常需要不同程度的对齐能力但以往的 MLLM 忽视了这些差异化的对齐需求。
为了解决这些问题来自南京大学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段他们并不是对所有图像-文本对一视同仁而是为不同的图像-文本对分配不同级别的对齐能力。然后在指令微调阶段他们自适应地组合这些不同级别的对齐能力以满足不同指令的动态对齐需求。广泛的实验结果表明AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。
论文链接 https://arxiv.org/abs/2405.14129 项目地址 https://aligngpt-vl.github.io/
10.JiuZhang3.0通过训练小型数据合成模型有效提高数学推理能力
数学推理是大型语言模型LLMs在实际应用中的一项重要能力。为了增强这一能力现有的工作要么是收集大规模数学相关文本进行预训练要么是依靠更强大的 LLM如 GPT-4来合成大规模数学问题。这两类工作通常都会导致训练或合成方面的巨大成本。
为了降低成本来自中国人民大学的研究团队及其合作者提出了一种基于开源文本的高效方法即训练一个小型 LLM 来合成数学问题从而有效地生成足够的高质量预训练数据。
为此他们使用 GPT-4 创建了一个数据集将其数据合成能力提炼到小型 LLM 中。具体来说他们根据人类教育阶段精心设计了一套提示语引导 GPT-4 归纳出涵盖不同数学知识和难度水平的问题。此外让他们还采用了基于梯度的影响估计方法来选择最有价值的数学相关文本。这两者都被输入到 GPT-4 中用于创建知识提炼数据集训练小型 LLM。他们利用它合成了 600 万个数学问题用于预训练 JiuZhang3.0 模型该模型只需调用 GPT-4 API 9.3k 次并在 4.6B 数据上进行预训练。实验结果表明在自然语言推理和工具操作设置下JiuZhang3.0 在多个数学推理数据集上都取得了 SOTA。
论文链接 https://arxiv.org/abs/2405.14365
11.DeepSeek-Prover通过大规模合成数据推进 LLM 中的定理证明
Lean 等证明助手彻底改变了数学证明验证确保了高准确性和可靠性。尽管大型语言模型LLM在数学推理中大有可为但由于缺乏训练数据它们在形式定理证明中的发展受到了阻碍。
为了解决这个问题来自 DeepSeek 和中山大学的研究团队及其合作者提出了一种从高中和本科生水平的数学竞赛题中生成大量 Lean 4 证明数据的方法。这种方法包括将自然语言问题转化为形式化语句过滤掉低质量语句并生成证明以创建合成数据。
DeepSeekMath 7B 模型由 800 万条带有证明的形式化语句组成在该合成数据集上对该模型进行微调后模型在 Lean 4 miniF2F 测试中的整体证明生成准确率在 64 个样本中达到了 46.3%累计达到了 52%超过了基线 GPT-4 在 64 个样本中的 23.0%以及树搜索强化学习方法的 41.0%。此外模型还成功证明了 Lean 4 形式化国际数学奥林匹克FIMO基准测试 148 个问题中的 5 个问题而 GPT-4 则未能证明任何问题。
这些结果证明了利用大规模合成数据提高 LLM 中定理证明能力的潜力。
论文链接 https://arxiv.org/abs/2405.14333
12.将具身多智能体协作与高效 LLM 结合
由于物理世界的复杂性将大型语言模型LLMs的推理能力与具身任务相结合是具有挑战性的。特别是多机器人协作的 LLM 规划需要机器人之间的交流或信用分配作为反馈从而重新调整所提出的计划并实现有效协调。然而现有方法过度依赖物理验证或自我反思导致对 LLM 的查询过多且效率低下。
在这项工作中来自清华大学、上海 AI Lab 和西北工业大学的研究团队及其合作者提出了一种新颖的多机器人协作框架该框架结合了强化优势反馈ReAd来实现计划的高效自我完善。具体来说他们通过批判回归从 LLM 计划的数据中学习顺序优势函数然后将 LLM 计划器视为优化器生成优势函数最大化的行动。它赋予了 LLM 判断行动是否有助于完成最终任务的前瞻性。他们通过将强化学习中的优势加权回归扩展到多智能体系统提供了理论分析。
在 Overcooked-AI 和 RoCoBench 的一个高难度变体上进行的实验表明ReAd 在成功率上超过了基线而且还显著减少了智能体的交互步骤和LLM的查询轮数证明了它在为LLM打基础方面的高效率。
论文链接 https://arxiv.org/abs/2405.14314 项目地址 https://read-llm.github.io/
13.HippoRAG神经生物学启发的大型语言模型长期记忆法
为了在恶劣和不断变化的自然环境中茁壮成长哺乳动物的大脑在进化过程中存储了大量有关世界的知识并不断整合新信息同时避免灾难性遗忘。尽管取得了令人瞩目的成就但大型语言模型LLMs即使采用了检索增强生成RAG技术仍难以在预训练后高效地整合大量新经验。
在这项工作中来自俄亥俄州立大学和斯坦福大学的研究团队提出了一种新颖的检索框架——HippoRAG其灵感来自于人类长期记忆的海马索引理论能够对新经验进行更深入、更高效的知识整合。HippoRAG 协同协调了 LLM、知识图谱和个性化 PageRank 算法从而模拟新皮层和海马体在人类记忆中的不同作用。
他们将 HippoRAG 与现有的多跳问题解答 RAG 方法进行了比较结果表明这一方法明显优于其他方法最高可达 20%。与 IRCoT 等迭代检索法相比使用 HippoRAG 的单步检索法取得了相当或更好的性能同时成本降低了 10-30 倍速度提高了 6-13 倍。最后他们展示了这一方法可以解决现有方法无法解决的新型场景。
论文链接 https://arxiv.org/abs/2405.14831 GitHub 地址 https://github.com/OSU-NLP-Group/HippoRAG