当前位置: 首页 > news >正文

教做面点的网站济宁网站建设电话

教做面点的网站,济宁网站建设电话,青岛网站建设公司,青岛学校论坛网站建设思维链#xff08;CoT#xff09;已被证明可以在许多任务#xff08;如多步骤推理#xff09;上显著提升大模型的性能。然而#xff0c;在哪些情况下#xff0c;CoT 会系统性地降低大模型的性能#xff0c;这仍然是一个有待进一步讨论的问题。 如今#xff0c;来自普林… 思维链CoT已被证明可以在许多任务如多步骤推理上显著提升大模型的性能。然而在哪些情况下CoT 会系统性地降低大模型的性能这仍然是一个有待进一步讨论的问题。 如今来自普林斯顿大学和纽约大学的研究团队参照思考对“人类性能”的影响提出了新的见解。 他们认为虽然模型的认知过程与人类的认知过程并不完全相同但可以参照思考对人类“性能”产生负面影响的情况假定思考会对模型产生负面影响的环境。 他们从心理学中选择了 6 项已被充分研究的任务类型来探讨 CoT 对 LLM 性能的影响并验证了 CoT 在一些任务中甚至可能导致模型准确率下降。 这一发现不仅为未来优化 LLM 的提示策略提供了新思路还为理解人类与模型在推理过程中的相似性与差异性带来了新见解。 论文链接 https://arxiv.org/abs/2410.21333 研究表明CoT 并非在所有任务中都能提高模型性能在隐性统计学习、面部识别、含例外模式的数据分类三种情况下各种 SOTA 模型的性能都会明显下降。此外研究本身进一步揭示了通过人类心理学研究大模型的可行性。 研究方法 为分析 CoT 对大语言模型LLM与多模态大模型LMM性能的影响该研究的方法框架基于以下两个关键条件 1言语思考或深思熟虑会损害人类“性能”的情况。 2将制约人类“性能”的因素推广到语言模型的情况。 之后为验证“CoT 在一些任务中会导致模型表现下降”的假设研究团队在上述两个条件的指导下基于人类心理学设计了以下 6 种任务场景 隐性统计学习Implicit Statistical Learning考察模型在隐含语法结构的分类任务中使用 CoT 是否会降低表现。基于心理学中的实验结果该研究假设人类在进行语言推理时往往表现较差因此 CoT 在该场景下应有类似的效果。 面部识别Facial Recognition在该任务中模型需要识别图像中的人脸。基于人类在口头描述面部特征后识别率下降的现象研究假设 CoT 会影响模型的面部识别准确性。 含例外模式的数据分类Classifying Data with Patterns that Contain Exceptions该任务模拟模型在含有异常标签的数据中学习的表现。研究假设 CoT 会导致模型在遇到例外情况时增加学习轮次因为人类通常会倾向于建立简单规则从而忽视个别特例。 解释逻辑不一致Explaining a logical inconsistency在逻辑一致性判断任务中模型需要识别出两句话之间的逻辑冲突该任务通常会引发人类的语言推理困难。 空间直觉Spatial Intuitions模型需要推断液体在倾斜容器中的位置。该任务依赖空间和运动直觉心理学研究表明人类在使用语言推理时效果不佳该研究假设模型也会遇到类似问题。 特征聚合决策Aggregating Features for a Decision模型在多维度决策情境中聚合信息并做出决策。由于信息过载通常会导致人类在 CoT 模式下表现不佳因此研究假设在该任务中CoT 将不会提高模型性能。 图对 6 项任务进行评估以确定 CoT 提示是否会降低任务的绩效。来源该论文 针对每个任务场景研究团队分别构建了零样本zero-shot和 CoT 提示条件并在多个主流 LLM 和 LMM 上进行测试包括 GPT-4o、Claude 3.5、Llama 等通过对比不同条件下模型的准确率量化 CoT 提示的效果从而验证他们的假设。 实验结果 研究团队首先对满足上述两个关键条件的 3 类任务场景进行实验验证。 隐性统计学习 针对该情境该研究考察了模型在分类基于特定语法结构的序列时的表现。任务包含 4400 个分类问题基于 100 种有限状态语法FSG结构每个测试提供 15 个样例再要求模型对新序列进行分类。 实验结果显示使用 CoT 提示的模型表现显著下降尤其是 OpenAI o1-preview 模型的准确率下降了 36.3%。 这表明当模型过度依赖逐步推理时CoT 可能会抑制其对隐性统计模式的学习能力。 图 | 人工语法学习中 zero-shot 和 CoT 对比结果。来源该论文 面部识别 在该任务情境中该研究测试了 CoT 是否会影响模型的面部识别能力这是基于心理学中“语词遮蔽”现象进行的任务情境设计。模型需要在 500 项任务中从 5 个候选中匹配初始人脸。 结果表明当被要求执行 CoT 时每个被测试的 LMM 都显示出性能下降与假设一致。 图面部识别中 zero-shot 和 CoT 提示的对比。来源该论文 含例外模式的数据分类 该任务通过包含多个主次特征的分类任务来测试模型在处理含例外情况时的表现任务要求模型在多次分类中逐步学习目标是尽可能减少迭代次数。 实验在 GPT-4o、Claude 3.5 Sonnet 和 Claude 3 Opus 上进行结果表明CoT 显著增加了学习轮次。平均来看GPT-4o 在 CoT 条件下完成正确分类所需的轮次为直接提示的四倍而 Claude 3.5 Sonnet 和 Claude 3 Opus 的轮次需求也分别增加至直接提示的两倍多。 图使用直接或 CoT 提示模型学习标签的平均轮数。来源该论文 在 GPT-4o 的进一步分析中发现直接提示使模型在第二或第三轮就能达到完美分类而使用 CoT 时模型在第四到第五轮仅能正确分类 8/10 的对象。这表明 CoT 提示会引导模型偏向基于规则的推理方式而忽视了已知的正确答案导致分类效率大幅下降。 之后研究团队又对满足条件1但不满足条件2的三类任务情境开展实验。 解释逻辑不一致 在该任务中模型需要识别句子对中的逻辑矛盾性。该任务基于 SNLI 和 MNLI 数据集以及合成数据集。 研究发现CoT 增加了模型忽视矛盾的可能性模型在逐步推理时更倾向于关注复杂的逻辑结构从而忽视了直接矛盾判定。这表明在需要精确逻辑验证的任务中CoT 提示存在局限性。 图逻辑不一致任务中比较 zero-shot 和 CoT 的结果。来源该论文 空间直觉 在该情境中模型需要通过“倾斜杯子”的问题来推断水面的位置。这类任务依赖于人类的空间或运动直觉而人类通常在非言语思维下表现更好。 模型接收了视觉提示和多项选择答案实验结果显示使用 CoT 提示对模型表现无明显影响。这说明在依赖空间或运动直觉的任务中模型的推理方式与人类的直觉差异较大因而 CoT 提示的负面影响较小。 图空间直觉任务中 zero-shot 和 CoT 的比较结果。来源该论文 特征聚合决策 此任务模拟了基于多项特征的决策过程如选房用于测试信息超载对决策的影响。人类在类似任务中由于记忆限制往往在 CoT 模式下表现较差。相对地模型保留了所有上下文信息能够无损地聚合和评估每项特征。 结果显示CoT 提示在高上下文记忆任务中提高了模型表现说明在信息保留至关重要的场景下CoT 提示能够发挥正向作用。 图四种模型和三种范围内的公寓选择任务结果。来源该论文 不足与展望 当然该研究也存在一些局限性如下 inference-time 推理的类型。 自从 CoT 提示被提出以来研究人员开发了多种特定于应用领域的提示方法以及更复杂的多次前向传递的通用提示方法如思维树tree-of thought和自一致性self-consistency。他们在 GPT-4o 模型上测试了思维树方法在隐式统计学习任务中的有效性发现其确实提高了分类准确率64.55% vs. 62.52%但仍远低于零样本推理的 94.00% 准确率。未来的研究仍需探索此方法是否可以适用于其他任务领域和模型中激发语言思维的方法。 应用范围。 尽管这一研究基于心理学的启发式方法提供了一种识别 CoT 失败案例的策略但这无法涵盖所有可能导致 CoT 表现下降的情况。现有的心理学研究基于多种理论和实际考量来研究人类并不能提供涵盖所有任务的详尽或代表性样本且会遗漏一些仅在模型中具有研究价值的特殊案例。 关于 CoT 未能复制人类结果的替代解释。 对于 CoT 在后面三个任务中没有观察到表现下降存在一种替代解释——在 LLM 中实现这些任务的方式消除了表现下降的效果。虽然研究对后三个任务情境进行了多种变体的探索但由于提示的变化几乎是无穷无尽的这些探索并不详尽。 研究团队表示虽然该研究聚焦于 CoT 推理但所提出的框架为利用人类心理学研究评估和改进模型表现提供了一种通用策略。 他们认为未来还需要更多的跨学科合作通过将自然语言处理方法、心理学见解与人类和模型表现比较的相关研究相结合可以形成更全面的 AI 评估和改进策略。
http://www.dnsts.com.cn/news/87138.html

相关文章:

  • 建手机网站软件百度站长工具数据提交
  • 网站采集转载wordpress rss教程
  • app制作网站制作完免费行情软件app网站大全
  • 网站设计的企业云端商城买流量
  • xampp做的网站能搜索吗网上整合营销
  • 网站维护平台龙岩网站建设要多少费用
  • vs连接数据库做网站门户网站开发案例
  • 网站开发 手机 电脑南京口碑最好的装修公司
  • 上海黄金网站设计uniapp商城app整套源码
  • 网站制作哪些分类如何优化wordpress
  • 做网站学cdr吗页面永久升级
  • 网站备案有什么好处网址和网站的区别
  • 沛县网站制作站长素材
  • 建设部网站上标准合同怎样在百度上发布自己的信息
  • 网上书城网站开发的数据字典网页设计与网站建设课程报告
  • 行业网站设计公司定制网站建设费用预算
  • 国外网站赚钱游侠相册网页设计作业
  • 零基础学习网站开发芜湖代理公司注册
  • 怎么查询网站开发公司58同城最新招聘信息今天
  • 郑州计算机网站公司2d游戏制作软件
  • 网站设计网络推广关键词广东省住房和城乡建设厅网站进不去
  • DW做的网站怎么弄兼容性wordpress单页面主题
  • 网站内链接分析招聘网站开发源码
  • 郑州快速建站价格网站做好了每年都要续费吗
  • 企业手机网站源码怎么制做网站
  • 江苏省建设厅网站建筑电工证如何做中国古城的网站
  • 帮传销做网站违法吗工装哪家装修公司好
  • 新手用什么框架做网站比较好宁阳移动网站制作
  • 注册公司网站模板下载深圳宝安区租房
  • 海兴网站建设杨凌网站建设哪家好