当前位置: 首页 > news >正文

网站域名免费怎样在百度上发帖子

网站域名免费,怎样在百度上发帖子,网站制作 东莞,做兼职去哪个网站论文地址#xff1a;https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来#xff0c;大规模无监督语言模型#xff08;LM#xff09;在知识获取和推理能力方面取得了显著进展#xff0c;但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来大规模无监督语言模型LM在知识获取和推理能力方面取得了显著进展但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈RLHF**来引导模型行为但RLHF存在以下问题 复杂性高RLHF需要先训练一个奖励模型来反映人类偏好然后使用强化学习来微调语言模型使其在最大化奖励的同时不偏离原始模型太远。不稳定性RLHF训练过程复杂且容易不稳定需要大量超参数调优和采样。计算成本高RLHF涉及训练多个模型和在训练循环中采样消耗大量计算资源。 2. DPO一种更简单、更高效的方法 为了解决上述问题本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法直接从人类偏好数据中优化语言模型而无需显式的奖励建模或强化学习。 2.1 DPO 的核心思想 DPO 的核心思想是 将偏好学习问题转化为一个简单的二元分类问题DPO 通过最大化人类偏好的对数概率同时最小化不偏好的对数概率来直接优化语言模型。引入动态重要性权重为了防止模型退化DPO 引入了基于隐式奖励模型的动态重要性权重该权重根据模型对偏好的排序错误程度进行调整。 2.2 DPO 的工作原理 构建偏好数据集从参考模型通常是经过监督微调的语言模型中采样生成多个候选响应并使用人类偏好数据对它们进行标注生成偏好对 ( y w , y l ) (y_w, y_l) (yw​,yl​)其中 y w y_w yw​ 表示更受偏好的响应 y l y_l yl​ 表示较不受偏好的响应。 定义 DPO 损失函数 L D P O ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right] LDPO​(πθ​;πref​)−E(x,yw​,yl​)∼D​[logσ(βlogπref​(yw​∣x)πθ​(yw​∣x)​−βlogπref​(yl​∣x)πθ​(yl​∣x)​)] π θ \pi_{\theta} πθ​待优化的语言模型。 π r e f \pi_{\mathrm{ref}} πref​参考模型通常是初始的监督微调模型。 β \beta β控制 KL 散度的超参数用于平衡奖励最大化与模型偏离程度。 σ \sigma σ sigmoid 函数将输入映射到 (0,1) 之间。 该损失函数鼓励模型生成更受偏好的响应同时惩罚生成不受偏好的响应。 优化模型 DPO 通过梯度下降法优化上述损失函数更新模型参数 θ \theta θ。 梯度计算如下 ∇ θ L D P O ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ( ∇ θ log ⁡ π ( y w ∣ x ) − ∇ θ log ⁡ π ( y l ∣ x ) ) ] \nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right] ∇θ​LDPO​(πθ​;πref​)−βE(x,yw​,yl​)∼D​[σ(r^θ​(x,yl​)−r^θ​(x,yw​))(∇θ​logπ(yw​∣x)−∇θ​logπ(yl​∣x))] 其中 r ^ θ ( x , y ) β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}_{\theta}(x,y) \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)} r^θ​(x,y)βlogπref​(y∣x)πθ​(y∣x)​ 表示隐式奖励模型。 当隐式奖励模型对偏好排序错误时权重 σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) \sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big) σ(r^θ​(x,yl​)−r^θ​(x,yw​)) 更大这意味着模型会更多地关注那些排序错误的样本从而更有效地纠正错误。梯度更新方向增加偏好响应的对数概率同时减少不偏好响应的对数概率。 3. DPO 的优势 无需显式奖励建模DPO 直接从偏好数据中学习无需训练单独的奖励模型简化了训练流程。无需强化学习DPO 使用简单的二元交叉熵损失进行优化避免了强化学习带来的复杂性和不稳定性。计算效率高DPO 训练过程更高效消耗的计算资源更少。性能优越实验表明DPO 在控制生成文本的情感、摘要生成和对话生成等任务上性能优于或至少与现有的 RLHF 方法相当。 4. 实验结果 4.1 情感生成任务 在控制情感生成任务中DPO 在奖励-KL 散度边界上表现优异能够在保持低 KL 散度的同时实现更高的奖励优于 PPO 等方法。 4.2 摘要生成任务 在 TL;DR 摘要生成任务中DPO 的胜率与参考摘要相比达到 61%高于 PPO 的 57%。 此外DPO 对采样温度的鲁棒性更强而 PPO 的性能在高温下会下降。 4.3 对话生成任务 在 Anthropic HH 对话数据集上DPO 是唯一一种在计算效率高的前提下能够超越首选完成度的方法并且其性能与计算成本更高的 Best of 128 基线相当。 4.4 泛化能力 在将 PPO 和 DPO 策略应用于不同分布CNN/DailyMail 新闻文章时DPO 仍然优于 PPO表明 DPO 策略具有较好的泛化能力。 4.5 GPT-4 评估与人类评估的一致性 为了验证 GPT-4 评估的可靠性本文进行了人类研究发现 GPT-4 的判断与人类判断的一致性较高表明 GPT-4 是人类评估的合理代理。 5. 讨论与未来方向 DPO 策略的泛化能力DPO 策略在不同分布上的表现如何与从显式奖励函数中学习相比如何奖励过度优化问题DPO 中是否存在奖励过度优化问题图 3 中性能的轻微下降是否是其表现DPO 的可扩展性DPO 能否扩展到更大规模的模型GPT-4 评估的改进如何更好地从自动化系统中获取高质量的判断DPO 的其他应用DPO 的应用范围可以扩展到其他模态的生成模型训练。 6. 总结 DPO 是一种无需强化学习的语言模型偏好优化方法具有以下优势 简化训练流程无需显式奖励建模和强化学习。计算效率高训练过程更高效消耗资源更少。性能优越在多个任务上表现优于或至少与现有的 RLHF 方法相当。 DPO 为训练更强大的、对齐的语言模型提供了一种更简单、更高效的方法。
http://www.dnsts.com.cn/news/102092.html

相关文章:

  • 深圳自适应网站开发公司wordpress多页面模板
  • 中国 网站服务器 租金甘肃张掖网站建设
  • 建设注册中心网站微信网站链接怎么做
  • 赣州做网站j北京app开发公司有哪些
  • 郑州网站建设哪家中国住建部网站查询网
  • 网站优化关键词公司广播电台网站建设方案
  • 请描述网站开发的一般流程个人网站模板素材
  • 网站建设服装项目设计书桂林做手机网站建设
  • 移动端网站建设推广方案建设部注册网站
  • 女装网站建设项目可行性分析上海专业制作网站
  • 做易经类的网站网上做家教兼职哪个网站
  • 常用网站设置如何建立自己的商城
  • 找人做的网站怎么运行外贸网站购买云服务器多少钱
  • 第一站长网厦门网站开发公
  • php网站开发招聘网络营销专业介绍及就业方向
  • 怎么更换网站模板看世界杯网址
  • 手机微网站网站图片类型
  • 企业网站模板湖南岚鸿网站建设是属现代服务吗
  • 聚美优品网站建设分析一支部一品牌一特色方案
  • 如何做自媒体网站创建设计SEO优化象客
  • 免费的网站公司网站asp后台维护
  • wordpress网站配置文件wordpress ishome
  • 绵竹网站建设天津市住房和城乡建设厅网站
  • 做企业网站哪个平台好济南建设监理协会网站
  • 网站公司做的网站被攻击南阳seo网站价格
  • 找出网站所有死链接响应式儿童网站源码
  • 建设工程规范在哪个网站下载网站开发公司目前主营业务
  • 绿色网站设计培训类网站开发
  • 企业网站模块介绍公众号简介有趣的文案
  • 品牌推广理论seo是什么职位简称