当前位置: 首页 > news >正文

长沙网站推广seo域名查ip地址查询

长沙网站推广seo,域名查ip地址查询,新手建站教程视频,建筑网图集TL;DR • SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好#xff0c;再与人类的偏好进行对齐#xff1b; • SFT 只通过 LLMs 生成的下一个单词进行估计#xff0c;而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计#xff0c;显然后者的估计会更准确#xff1b; • 虽然… TL;DR • SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好再与人类的偏好进行对齐 • SFT 只通过 LLMs 生成的下一个单词进行估计而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计显然后者的估计会更准确 • 虽然 RLHF 和 DPO 取得比 SFT 好的结果但代价是高昂的数据构造和计算资源开销 • IFT 通过引入时序残差连接仅使用多推理一步的开销就可以融合 SFT、RLHF 和 DPO 的训练目标摆脱对偏好数据和参考模型的依赖保证训练目标与真实生成目标更加相近 • IFT 建模并优化了当前生成单词对所有未来生成结果的影响增强了模型的因果性和事实性 引言 随着 ChatGPT 等强大模型的发布大语言模型Large Language ModelsLLMs的浪潮席卷而来并逐渐走进千家万户。LLMs 可以协助文字工作者寻找创作灵感可以为各年龄段的学生详解知识点甚至可以帮助心情不好的人做心理疏导。可以说LLMs 正在成为许多人日常工作与生活的必需品。 然而现阶段的 LLMs 仍然在一些方面饱受诟病。首当其冲的就是**“幻觉”问题**LLMs 会自信满满地生成不符合事实或常理的回答可能对使用者造成误导。另外LLMs 对于复杂指令的理解与遵循能力欠佳他们可能会自动忽略指令中的某些信息只完成用户的一部分要求。上面这些问题是 LLMs 落地应用时的硬伤极大地限制着 LLMs 产生更大的实际价值。 那么产生上述现象的可能原因有哪些我们又应该如何改善这些问题下面我们将从 LLMs 训练方法的角度出发与大家一同寻找答案。 从 监督微调 到 偏好优化 当下最流行的 LLMs 训练流程大概可以分为以下三步预训练Pre-TrainingPT、监督微调Supervised Fine-TuningSFT和 偏好优化Preference OptimizationPO。预训练时语言模型在超大规模的语料中进行学习并初步掌握基本的语法规则、逻辑能力、常识知识等等。但是用于训练的语料中难免存在偏离人类价值观的数据使 LLMs 不足够符合人类的偏好。同时预训练的目标仅仅是根据上文补全单词无法使 LLMs 具备对话和问答能力。因此为了实现更好的与人交互进一步的训练成为必须。 监督微调 一种最简单的思路就是照搬预训练的目标函数和损失函数进一步微调但是改变数据的质量和格式。为了使 LLMs 对齐人类价值观我们可以专门筛选一些符合人类价值观的数据为了让 LLMs 适应对话和问答场景我们可以构造一问一答或者多轮问答的数据。经过上述数据的训练模型将拟合这部分数据的特性从而达到我们的目的这一过程也被称为监督微调。 LSFTEρ0∼DEsi∗∼Sρ0∗[−i0∑NlogTθ(π∗(si∗),si∗)] 然而PT 和 SFT 的训练目标与真实的生成任务目标之间存在一定的差距这会使训练后的 LLMs 难以达到我们的预期。具体来讲在真实的生成任务中LLMs 将依据一个指令循环进行下述流程 • ① 依据上文预测下一个单词 • ② 将自己预测的单词拼接到上文中 • ③ 重复进行上述步骤直至生成终止符。 然而在进行 PT 和 SFT 时步骤②中拼接到上文的将是 Ground Truth 单词而不是 LLMs 自己预测的单词使得损失函数高估 LLMs 当前的能力得到差强人意的训练结果。同时这种目标函数只考虑了上文对当前预测的影响没有考虑 LLMs 当前预测对自身未来预测的影响限制了 LLMs 的因果性和泛化性。 基于人类反馈的强化学习 为了缓解上述问题进一步地提升 LLMs 的对话能力、以及对于人类价值观的对齐程度偏好优化Preference OptimizationPO被引入到了模型微调过程中基于人类反馈的强化学习Reinforcement Learning from Human FeedbackRLHF便是这类算法最早期的代表。 RLHF 的第一步是根据人类的偏好训练一个打分模型Reward ModelRM使其可以评估一条问答数据的质量。随后LLMs 依据训练集中的指令生成自己偏好的回复仅依据输入指令自主生成回复而不是不断地依靠 Ground Truth 预测下一个Token并使用 RM 的打分作为监督信号不断让自己的生成结果更接近人类偏好。其中实现上述优化过程的最常用算法被称为近端策略优化Proximal Policy OptimizationPPO。 LPPOEρ0∼DEsi∗∼Sρ0∗[−i0∑NR(πθ(siθ),siθ)] RπR←πminLR LREρ0∼DEsi∼Sρ0,si−∼Sρ0−[−logσ(i0∑NlogTR(π(si)∣si)−i0∑NlogTR(π−(si−)∣si−))] RLHF 使用了更加贴合真实生成任务的目标函数成为了获得强大 LLMs 的关键步骤。然而RLHF 存在两方面的巨大开销 • ① 数据构造为了得到 RM我们要针对每条指令采集多条≥2回复数据再让人类依据自己的偏好对这些数据进行质量排序这将耗费大量的人力成本 • ② 计算资源为了模拟真实的生成场景在 RLHF 的训练过程中需要实时地让 LLMs 生成回复并用 RM 进行打分。 同时由于 RLHF 和 PT 、SFT 之间存在较大的目标函数差异拟合 RLHF 的目标将带来不稳定的训练过程并会产生对过往知识的灾难性遗忘。所以RLHF 还需要一个冻结的参考模型与策略模型也就是被训练的模型计算 KL 散度作为约束抑制模型的参数偏移。于是在 RLHF 时需要 3-4 个LLMs 同时被存储在 GPU 中并参与运算计算资源的开销可想而知。 直接偏好优化 如果不能降低 RLHF 的开销LLMs 在更广泛场景中的应用将受到限制。于是直接偏好优化Direct Preference OptimizationDPO应运而生。DPO 融合了打分模型和策略模型的训练过程因此只需要标注过偏好的数据、参考模型和策略模型就可以使 LLMs 直接对齐人类的偏好极大地减轻了训练时对计算资源的消耗。但是理想的 DPO 形态应是 在线DPOOnline DPO也就是需要实时地采样 LLMs 对指令的回复并实时地由人类标注偏好。所以数据构造带来的开销非但没有降低这种开销经常被忽略反而要比 RLHF 更高。 LDPO-onlineEρ0∼DEsi∗∼Sρ0∗,siθ∼Sρ0θ[−logσ(i0∑NlogTθ(π∗(si∗),si∗)−i0∑NlogTθ(πθ(siθ),siθ))] LDPO-offlineEρ0∼DEsi∼Sρ0,si−∼Sρ0−[−logσ(i0∑NlogTθ(π(si),si)−i0∑NlogTθ(π−(si−),si−))] 为此开源社区通常使用 离线DPOOffline DPO微调模型。这种方法会在训练前采集模型对指令的回复并由人类标注好不同回复之间的排序随后用这部分数据训练模型。Offline DPO 可以看作是使用事先采集的数据估计了人类和 LLMs 的偏好随后再通过训练对齐二者的偏好。可是随着训练的进行LLMs 会逐渐偏离它自己最开始的偏好损失函数又会错误地估计 LLMs 当前的能力和上文中的 PT 和 SFT 类似进而导致不理想的训练结果。 直觉微调 SFT 成本低但效果欠佳RLHF 和 DPO 效果好但是成本过高。那么是否存在某种方法可以兼顾两类算法的优势在降低开销的同时保证微调效果呢如果我们使用一个统一的视角会发现 SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好再与人类的偏好进行对齐。不过SFT 只通过 LLMs 生成的一个单词进行估计而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计显然后者的估计会更准确。 或者我们可以用复习考试时的刷题进行比喻。如果我们看到一个题目后先依照自己的理解写完整道题然后再对答案通常可以通过试错的方式正确地了解自己的思维漏洞查漏补缺相反如果我们在完成题目时每写一步结果就立即对答案随后再在正确答案的基础上写下一步结果那我们通过这道题目获得的收获显然是更少的。 那么如何才能在不依赖参考模型和偏好数据的前提下更好地使训练目标对齐真实生成目标呢更大程度地暴露语言模型的“思维漏洞”是一种可能的解法也是 直觉微调Intuitive Fine-TuningIFT的核心思想。IFT 通过引入 时间维度的残差连接Temproral Residual ConnectionTRC使模型依照自己上一步的预测结果再多预测一步近似地构建了 LLMs 对于指令的完整回复更准确地估计了 LLMs 的偏好从而获得更好的训练结果。这种方式也可以使 LLMs 获得类似于人类直觉的能力每当它看到某个指令时就对于完整的回复产生了一个模糊的预测。同时TRC 还间接地引入了 动态关系传播Dynamic Relation PropagationDRPDRP 可以建模 LLMs 当前预测单词对所有未来生成结果的影响增强了 LLMs 生成过程中的因果性和事实性。 LIFTEρ0∼DEsi∗∼Sρ0∗[−n0∑Nin∑NlogTθ(ai∗,δθ(si∗))] δθ(si∗)(1−λ)si∗λπθ(si−1∗) 若希望了解更详细的问题建模和算法介绍请参考原论文Intuitive Fine-Tuning: Towards Simplify Alignment into a Single Process[1] 其他相关方法 Scheduled Sampling 相较于 PE 和 SFT 完全依赖 Ground Truth 作为上文这个方法在训练过程中逐渐地引入更多 LLMs 自己预测的单词作为上文旨在让 LLMs 的训练目标更加贴合真实的生成任务。如果把 Scheduled Sampling 看作是对于 LLMs 偏好单词的硬采样那么 IFT 则可以看作是一种软采样的进化版。IFT 的软采样可以获得模型更完整的偏好估计并且更加利于进行梯度优化。 ∃ Sρ0′⊆Sρ0∗,∀si∗∈Sρ0′,δθ(si∗)πθ(si−1∗) Noisy Embedding Fine-Tuning 在 LLMs 的训练和推理过程中都会首先对输入的上文进行向量化得到 Embedding随后再将 Embedding 传输到后续的模型中进行运算。这种方法通过在 Embedding 中加入随机噪声来增强训练的泛化性和鲁棒性。IFT 也可以看作是在对 Embedding “加噪”不过这个噪声是具有上下文因果性的“噪声”所以相较随机噪声可以帮助模型获得更强的因果性和事实遵从性。 最后如果您也对AI大模型感兴趣想学习却苦于没有方向 小编给自己收藏整理好的学习资料分享出来给大家 AI大模型学习路线汇总 大模型学习路线图整体分为7个大的阶段全套教程文末领取哈 第一阶段 从大模型系统设计入手讲解大模型的主要方法 第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用 第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统 第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统 第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型 第六阶段 以SD多模态大模型为主搭建了文生图小程序案例 第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。 如何学习AI大模型 作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集 这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍 随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。
http://www.dnsts.com.cn/news/34793.html

相关文章:

  • 个人网站用主机做服务器网站推广行业
  • 蓝色旅游资讯网站模板wordpress 修改时间
  • asp网站后台产品管理中增加一个功能怎样修改微商城系统哪家强
  • 网站建设与网页设计是什么搭建电商平台方案
  • 哪个网站能免费做电子书封面网站不被收录
  • wikidot网站怎么做惠州seo外包费用
  • 平凉市建设厅官方网站wordpress saml
  • 创建公司网站需要注意什么wordpress 导航 代码
  • app应用网站单页模板下载西安有哪些好玩的
  • 建设网站要求哪里备案交互式网站设计 深圳
  • 网络推广怎么做最有效大连做优化网站哪家好
  • 建网站的目的高端网站设计找哪个公司
  • 邯郸市建设局网站2017内蒙古网站开发公司
  • 门户网站是专一化好还是多元化好全球最新数据消息
  • 备案期间关闭网站梅州建站塔山双喜
  • 建筑专业网站wordpress 分类 字段
  • 网站开发 策划是干嘛的大棚网站建设
  • wordpress网站外包网页设计师工资一般多少钱
  • ASP.NET2.0网站开发全程解析餐厅装修设计
  • 做投票网站的网站建设的常用技术有哪些
  • 比分网站制作淘宝优惠券网站开发
  • 网站模版防被偷哈尔滨市工程信息网
  • 织梦末班和dw建设网站哪个方便优化WordPress页面怎么html
  • 酒店网站设计方案山东川畅科技做网站多少钱
  • 建设工程自学网站公司域名一年多少费用
  • 商业摄影网站源码医疗网站不备案
  • 卫浴建材网站建设小程序游戏开发成本
  • 做资源网站有哪些网站怎么做会员系统
  • 网站制作职业帮人推广的平台
  • 深圳团购网站设计价格安康市天然气公司