当前位置: 首页 > news >正文

广东省建设银行招聘网站开发银行助学贷款系统登录官网

广东省建设银行招聘网站,开发银行助学贷款系统登录官网,工作服定制,网站建设模拟实训题note SFT使用交叉熵损失函数#xff0c;目标是调整参数使模型输出与标准答案一致#xff0c;不能从整体把控output质量#xff0c;RLHF#xff08;分为奖励模型训练、近端策略优化两个步骤#xff09;则是将output作为一个整体考虑#xff0c;优化目标是使模型生成高质量…note SFT使用交叉熵损失函数目标是调整参数使模型输出与标准答案一致不能从整体把控output质量RLHF分为奖励模型训练、近端策略优化两个步骤则是将output作为一个整体考虑优化目标是使模型生成高质量回复。 启发1像可以用6b、66b依次得到差一点、好一点的target构造排序数据集进行DPO直接偏好学习或者其他RLHF替代方法RAILF、ReST等比直接RLHF更方便训练启发2为了减少幻觉如拒绝回答可以构造排序数据集如good response为拒绝话术bad response是没拒绝的胡乱回答进行RLHF实验基于chatglm 6b、gpt4构造排序数据集然后对微调6b后的sft模型进行dpo直接偏好学习训练 奖励模型训练奖励模型通常也采用基于 Transformer 架构的预训练语言模型。在奖励模型中移除最后一个 非嵌入层并在最终的 Transformer 层上叠加了一个额外的线性层。无论输入的是何种文本奖励 模型都能为文本序列中的最后一个标记分配一个标量奖励值样本质量越高奖励值越大。在RLHF中比如MOSS-RLHF是使用奖励模型来初始化评论家模型critic model和奖励模型reward model评论家模型也使用奖励模型初始化便于在早期提供较准确的状态值估计但是注意PPO会对策略模型、评论家模型训练并更新奖励模型、参考模型不参与训练。 异策略固定一个演员和环境交互不需要更新将交互得到的轨迹交给另一个负责学习的演员训练。PPO就是策略梯度的异策略版本。通过重要性采样这里使用KL散度进行策略梯度的更新。PPO解决了传统策略梯度方法的缺点高方差、低数据效率、易发散等问题。PPO-clip算法通过引入裁剪机制来限制策略更新的幅度使得策略更新更加稳定 文章目录 note零、强化学习基础知识1. 强化学习框架的六要素 一、RLHF对齐1. 训练奖励模型和RL2. RLHF3. 常见的公开偏好数据集 二、PPO近端策略优化1. PPO介绍2. PPO效果 三、Llama2中的RLHF1. 两个奖励模型2. 拒绝采样步骤 四、RLHF的替代技术一DPO直接偏好优化1. DPO模型2. DPO实验3. 微软的PPO实践4. DPO、PPO、BPO区别 二RLAIF模型三ReST模型四Constitutional AI五RRHF模型六ReMax模型七RSO模型 Reference 零、强化学习基础知识 1. 强化学习框架的六要素 1一句话RL是研究agent智能体和环境交互的问题目标是使agent在复杂而不确定的环境中最大化奖励值。 智能体Agent强化学习的主体也就是作出决定的“大脑”环境Environment智能体所在的环境智能体交互的对象行动Action由智能体做出的行动奖励Reward智能体作出行动后该行动带来的奖励状态State智能体自身当前所处的状态目标Objective指智能体希望达成的目标。 串起6要素一个在不断变化的【环境】中的【智能体】为了达成某个【目标】需要不断【行动】行动给予反馈即【奖励】智能体对这些奖励进行学习改变自己所处的【状态】再进行下一步行动即持续这个【行动-奖励-更新状态】的过程直到达到目标。 2策略与价值 agent在尝试各种行为时就是在学习一个策略policy一套指导agent在特定状态下行动的规则agent会估计价值value即预测未来采取某个行为后所能带来的奖励 任何一个有智力的个体它的学习过程都遵循强化学习所描述的原理。比如说婴儿学走路就是通过与环境交互不断从失败中学习来改进自己的下一步的动作才最终成功的。再比如说在机器人领域一个智能机器人控制机械臂来完成一个指定的任务或者协调全身的动作来学习跑步本质上都符合强化学习的过程。 3奖励模型Reward Model和评论模型Critic Model 奖励模型Reward Model奖励模型是强化学习中一个基本元素它定义了智能体执行特定动作后将得到的奖励。换句话说奖励模型为智能体在其环境中执行的每个动作提供奖励正面或惩罚负面。这个模型帮助智能体理解哪些动作是有利的哪些不是因此智能体尝试通过最大化获得的总奖励来找到最优策略。 评论模型Critic Model评论模型是一种基于值迭代的方法它在每个状态或动作上评估或者评论期望的未来奖励。评论者用来估计一个动作或状态的长期价值通常在演员-评论者模型Actor-Critic Models中使用演员选择动作评论者评估动作。 两者的主要区别在于奖励模型直接反映了每个动作的即时反馈而评论模型是对未来奖励的一个预测或估计关注的是长期价值通常基于数学期望来进行评估。 一、RLHF对齐 1. 训练奖励模型和RL 用奖励模型训练sft模型生成模型使用奖励或惩罚来更新策略以便生成更高质量、符合人类偏好的文本。 奖励模型RL强化学习作用1学习人类兴趣偏好训练奖励模型。由于需要学习到偏好答案训练语料中含有response_rejected不符合问题的答案。 2奖励模型能够在RL强化学习阶段对多个答案进行打分排序。根据奖励模型训练之前的sft微调模型RL强化学习阶段可以复用sft的数据集训练语料{‘question’: ‘土源性线虫感染的多发地区是哪里’, ‘response_chosen’: ‘苏北地区贵州省剑河县西南贫困地区桂东江西省鄱阳湖区江西省’, ‘response_rejected’: ‘在热带和亚热带地区的农村。’},{‘qustion’:‘这是一个自然语言推理问题\n前提要继续做好扶贫工作,帮助贫困地区脱贫致富\n假设中国有扶贫工作\n选项矛盾蕴含中立’ ‘answer’:‘蕴含。因为前提中提到了要继续做好扶贫工作这表明中国存在扶贫工作。因此前提蕴含了假设。’} 2. RLHF RLHFreinforcement learning from human feedback 分为三个步骤 step1 我做你看有监督学习从训练集中挑出一批prompt人工对prompt写答案。其实就是构造sft数据集进行微调。step2 你做我看奖励模型训练这次不人工写答案了而是让GPT或其他大模型给出几个候选答案人工对其质量排序Reward model学习一个打分器这个让机器学习人类偏好的过程就是【对齐】但可能会导致胡说八道可以通过KL Divergence等方法解决。 instructGPT中奖励模型的损失函数如下其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出具有参数θ y w y_w yw​是 y w y_w yw​和 y l y_l yl​中更受欢迎的补全D是人类比较的数据集。 loss ⁡ ( θ ) − 1 ( K 2 ) E ( x , y w , y l ) ∼ D [ log ⁡ ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] \operatorname{loss}(\theta)-\frac{1}{\left(\begin{array}{c} K \\ 2 \end{array}\right)} E_{\left(x, y_w, y_l\right) \sim D}\left[\log \left(\sigma\left(r_\theta\left(x, y_w\right)-r_\theta\left(x, y_l\right)\right)\right)\right] loss(θ)−(K2​)1​E(x,yw​,yl​)∼D​[log(σ(rθ​(x,yw​)−rθ​(x,yl​)))]每个样本包括question、response_chosen、response_rejected键值对每对样本的loss定义 L ( ψ ) log ⁡ σ ( r ( x , y w ) − r ( x , y l ) ) \mathcal{L}(\psi)\log \sigma\left(r\left(x, y_w\right)-r\left(x, y_l\right)\right) L(ψ)logσ(r(x,yw​)−r(x,yl​)) 其中上面的符号 σ \sigma σ 是 sigmoid 函数, r r r 代表参数为 ψ \psi ψ 的奖励模型的值, r ( x , y ) r(x, y) r(x,y) 表示针对输入提示 x x x 和输出 y y y所预测出的单一标量奖励值。上面是instructGPT的ranking loss但是llama2中增加一个离散函数 m ( r ) m(r) m(r) step3 自学成才PPO训练利用第二阶段的奖励模型RM计算奖励分数同时使用PPO近端策略优化更新第一步训练得到的sft模型最大优化该目标函数 objective  ( ϕ ) E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β log ⁡ ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] γ E x ∼ D pretrain  [ log ⁡ ( π ϕ R L ( x ) ) ] \begin{aligned} \text { objective }(\phi) E_{(x, y) \sim D_{\pi_\phi^{\mathrm{RL}}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right] \\ \gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{aligned}  objective (ϕ)​E(x,y)∼DπϕRL​​​[rθ​(x,y)−βlog(πϕRL​(y∣x)/πSFT(y∣x))]γEx∼Dpretrain ​​[log(πϕRL​(x))]​ π φ R L π^{RL}_φ πφRL​是学习到的RL策略 π S F T π^{SFT} πSFT是监督训练模型 D p r e t r a i n D_pretrain Dp​retrain 是预训练分布。KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型γ 设为 0。 3. 常见的公开偏好数据集 源自《Llama 2: Open Foundation and Fine-Tuned Chat Models》Table 6 如https://huggingface.co/datasets/lvwerra/stack-exchange-paired 二、PPO近端策略优化 1. PPO介绍 思想保证策略改进同时通过一些约束来控制策略更新的幅度在每次迭代中通过采样多个轨迹数据来更新策略 使用当前策略对环境交互收集多个轨迹数据利用第一步的轨迹数据计算当前策略和旧策略之间的KL散度通过控制KL散度大小来限制策略更新的幅度使用优化器对策略进行更新使其更加接近当前的样本策略 近端策略优化PPO涉及到四个模型 1策略模型Policy Model生成模型回复。2奖励模型Reward Model输出奖励分数来评估回复质量的好坏。3评论模型Critic Model/value model来预测回复的好坏可以在训练过程中实时调整模型选择对未来累积收益最大的行为。4参考模型Reference Model提供了一个 SFT 模型的备份帮助模型不会出现过于极端的变化。 近端策略优化PPO的实施流程如下 环境采样策略模型基于给定输入生成一系列的回复奖励模型则对这些回复进行打分获得奖励。优势估计利用评论模型预测生成回复的未来累积奖励并借助广义优势估计Generalized Advantage EstimationGAE算法来估计优势函数能够有助于更准确地评估每次行动的好处。 GAE基于优势函数加权估计的GAE可以减少策略梯度估计方差 优化调整使用优势函数来优化和调整策略模型同时利用参考模型确保更新的策略不会有太大的变化从而维持模型的稳定性。 相关强化学习概念对应 Policy现有LLM接受输入进行输出的过程。State当前生成的文本序列。Action Space即vocab也就是从vocab中选取一个作为本次生成的token。 KL散度Kullback-Leibler Divergence可以衡量两个概率分布之间的差异程度。在 PPO 算法中KL 散度Kullback-Leibler Divergence的计算公式如下 K L ( π o l d ∣ ∣ π n e w ) ∑ i π o l d ( i ) l o g ( π o l d ( i ) / π n e w ( i ) ) KL(π_old || π_new) ∑i π_old(i) log(π_old(i) / π_new(i)) KL(πo​ld∣∣πn​ew)∑iπo​ld(i)log(πo​ld(i)/πn​ew(i)) 其中π_old 表示旧的策略π_new 表示当前的样本策略。KL 散度的含义是用 π_old 的分布对 π_new 的分布进行加权然后计算两个分布之间的差异程度。具体来说KL 散度的计算方法是首先计算 π_old(i) / π_new(i) 的比值然后对其取对数并乘以 π_old(i) 来进行加权。最后将所有加权后的结果相加即可得到 KL 散度的值。这里的KL散度值是一个【惩罚项】即经过RL训练后模型和SFT后模型的KL散度繁殖两个模型偏差太多导致模型效果下降RLHF的主要目的是alignment。 注意KL 散度是一个非对称的度量即 KL(π_old || π_new) 与 KL(π_new || π_old) 的值可能不相等。在 PPO 算法中我们通常使用 KL(π_old || π_new) 来控制策略更新的幅度因为 KL(π_old || π_new) 的值通常比 KL(π_new || π_old) 更容易控制并且更能够反映出策略改变的方向。 2. PPO效果 在instructGPT论文实验中效果最好的是GPT-3 supervised finetuning RLHF的模型 三、Llama2中的RLHF 1. 两个奖励模型 核心一两个奖励模型。Llama-2-chat 遵循与 InstructGPT 的 RLHF 第 1 步相同的基于指令数据的监督式微调步骤。然而在 RLHF 第 2 步Llama-2-chat 是创建两个奖励模型而不是一个因为有用性、安全性某种程度上是对立关系。 一个是基于有用性一个是基于安全性 2. 拒绝采样步骤 核心二拒绝采样rejection sampling。Llama-2-chat 模型会经历多个演进阶段奖励模型也会根据 Llama-2-chat 中涌现的错误而获得更新。它还有一个额外的拒绝采样步骤。即有多个输出选择奖励函数值最高的一个用于梯度更新。即用RM筛选出当前模型最好的结果进行sft。实验中是将llama2-chat迭代了5轮前4轮采用拒绝采样最后一轮使用PPO。 拒绝采样是蒙特卡洛方法的一种下图左边是llama2的reward model右边是gpt4进行judge都是基于llama2-chat模型进行微调或PPO。 参考维基百科https://en.wikipedia.org/wiki/Rejection_sampling 四、RLHF的替代技术 一DPO直接偏好优化 1. DPO模型 论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model 》论文地址https://arxiv.org/abs/2305.18290背景RLHF是一个复杂、不稳定、难训练的过程用reward model进行ppo强化学习等而DPO可以避开训练奖励模型这个步骤直接对排序数据集进行直接偏好学习。将对奖励函数的损失转为对策略的损失优化和RLHF相同的目标函数KL散度限制下最大化reward。 相关原理 和RRHF相似但带有一个sft模型约束KL散度保证不加sft Loss情况下训练不崩溃。原本基于RL的目标现在通过BCE二元交叉熵来优化不需要再训练期间明确学习奖励函数or从策略中采样。有监督损失函数DPO优化的目标函数: max ⁡ π θ E π θ ( y ∣ x ) [ r ϕ ( x , y ) − β log ⁡ ∑ y π r e f exp ⁡ ( 1 β r ϕ ( x , y ) ) ⏟ f ( r ϕ , π r e f , β ) − β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) ⏟ K L ] \max _{\pi_\theta} \mathbb{E}_{\pi_\theta(y \mid x)}[\underbrace{r_\phi(x, y)-\beta \log \sum_y \pi_{\mathrm{ref}} \exp \left(\frac{1}{\beta} r_\phi(x, y)\right)}_{f\left(r_\phi, \pi_{\mathrm{ref}}, \beta\right)}-\underbrace{\beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}}_{\mathrm{KL}}] πθ​max​Eπθ​(y∣x)​[f(rϕ​,πref​,β) rϕ​(x,y)−βlogy∑​πref​exp(β1​rϕ​(x,y))​​−KL βlogπref​(y∣x)πθ​(y∣x)​​​]DPO更新参数目标函数 L D P O ( π θ ; π r e f ) − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)-\mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_\theta\left(y_w \mid x\right)}{\pi_{\mathrm{ref}}\left(y_w \mid x\right)}-\beta \log \frac{\pi_\theta\left(y_l \mid x\right)}{\pi_{\mathrm{ref}}\left(y_l \mid x\right)}\right)\right] LDPO​(πθ​;πref​)−E(x,yw​,yl​)∼D​[logσ(βlogπref​(yw​∣x)πθ​(yw​∣x)​−βlogπref​(yl​∣x)πθ​(yl​∣x)​)] 注意奖励函数 r r r和策略 π π π的关系推倒出来后就能把ranking loss中的奖励函数 r r r替换目标函数含义如果是好答案则尽可能增大被policy策略模型生成的概率 对上面的目标函数的梯度 ∇ θ L D P O ( π θ ; π r e f ) − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ⏟ higher weight when reward estimate is wrong  [ ∇ θ log ⁡ π ( y w ∣ x ) ⏟ increase likelihood of  y w − ∇ θ log ⁡ π ( y l ∣ x ) ⏟ decrease likelihood of  y l ] ] , \begin{aligned} \nabla_\theta \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right) \\ -\beta \mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}[\underbrace{\sigma\left(\hat{r}_\theta\left(x, y_l\right)-\hat{r}_\theta\left(x, y_w\right)\right)}_{\text {higher weight when reward estimate is wrong }}[\underbrace{\nabla_\theta \log \pi\left(y_w \mid x\right)}_{\text {increase likelihood of } y_w}-\underbrace{\nabla_\theta \log \pi\left(y_l \mid x\right)}_{\text {decrease likelihood of } y_l}]], \end{aligned} ​∇θ​LDPO​(πθ​;πref​)−βE(x,yw​,yl​)∼D​[higher weight when reward estimate is wrong  σ(r^θ​(x,yl​)−r^θ​(x,yw​))​​[increase likelihood of yw​ ∇θ​logπ(yw​∣x)​​−decrease likelihood of yl​ ∇θ​logπ(yl​∣x)​​]],​ 启发思想利用chatglm6b、s66b依次得到差一点的target、好一点的target的排序数据集在这个排序数据集上对sft model直接进行dpo直接偏好学习比直接rlhf更方便训练绕过训练reward model的步骤 # 数据样例 {question: 我的女儿快两岁了好动是怎么回事我的女儿快两岁了还不会坐的时候当大人抱着坐时90度她会把两条腿抬起来使劲绷直腿和脚尖累了就放下来歇一下然后再绷表情专注还会累得出汗当时人们说是孩子长身体呢没有在意。, response_chosen: 你好有的孩子可能会有些小问题但是大多数孩子是无大碍的因为这个年龄段正是孩子好动的年龄段而且每个孩子的性格和秉性不一样有的孩子天生就是活泼但是也有极少数可能会有关至于出汗多晚上睡眠出汗多那可能是缺乏钙或其它营养元素。可以给宝宝进行一下和缺钙有关的检查微量元素和血铅镉化验也很重要。, response_rejected: 这个现象可能是由于婴儿发育过程中的骨骼生长造成的。}结果在 RLHF 用于拟合奖励模型的交叉熵损失也可用于直接微调 LLM。根据他们的基准测试使用 DPO 的效率更高而且在响应质量方面也通常优于 RLHF/PPO。 2. DPO实验 实验 论文中的实验探索DPO在参考策略中权衡奖励最大化和 KL-divergence 最小化的效率并且评估DPO在更大模型和更困难的 RLHF 任务 (包括摘要和对话) 上的性能我的简单实验直接使用bloomz-560m模型预训练权重选择Bloom-560mpretrain不是Bloomz-560mpretrainft on xP3不需要reward_model使用dpo直接偏好优化loss如下图仅100条偏好数据集就能较好收敛。 可以使用trl库中的DPOTrainer库 数据准备排序数据集我在bloom模型上实验是用的100条公开数据集原本基于RL的目标现在通过BCE二元交叉熵来优化有监督损失函数DPO优化的目标函数: max ⁡ π θ E π θ ( y ∣ x ) [ r ϕ ( x , y ) − β log ⁡ ∑ y π r e f exp ⁡ ( 1 β r ϕ ( x , y ) ) ⏟ f ( r ϕ , π r e f , β ) − β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) ⏟ K L ] \max _{\pi_\theta} \mathbb{E}_{\pi_\theta(y \mid x)}[\underbrace{r_\phi(x, y)-\beta \log \sum_y \pi_{\mathrm{ref}} \exp \left(\frac{1}{\beta} r_\phi(x, y)\right)}_{f\left(r_\phi, \pi_{\mathrm{ref}}, \beta\right)}-\underbrace{\beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}}_{\mathrm{KL}}] πθ​max​Eπθ​(y∣x)​[f(rϕ​,πref​,β) rϕ​(x,y)−βlogy∑​πref​exp(β1​rϕ​(x,y))​​−KL βlogπref​(y∣x)πθ​(y∣x)​​​] 实验结果分析 1文中在多个数据集任务上进行对比实验下图 使用偏好数据集 D { x ( i ) , y w ( i ) , y l ( i ) } i 1 N \mathcal{D}\left\{x^{(i)}, y_w^{(i)}, y_l^{(i)}\right\}_{i1}^N D{x(i),yw(i)​,yl(i)​}i1N​左图情感分类任务在sentiment generation任务中在所有的KL散度下DPO都取得了最大的reward右图文本摘要任务在DR summarization任务中DPO也超过PPO使用了GPT4进行评估并且在不同的temperature下鲁棒性也更好。 2结果分析下图 左图在单轮对话任务中采用GPT-4计算win rateDPO在temperature0.75-1.00时均取得了最好的win rate右图DPO在训练过程中表现出了较快的收敛速度训练较为平稳在不同temperature实验分别取0.7和1.0时DPO的胜率都是接近的证明了DPO的可靠性。 3. 微软的PPO实践 论文Contrastive Post-training Large Language Models on Data Curriculum 链接https://arxiv.org/abs/2310.02263 核心考虑到排序数据成本他们直接默认GPT4 ChatGPT InstructGPT的效果顺序构造排序数据集实验后得到以下结论 1用DPO在 GPT4 vs InstructGPT 上训练的效果 直接在GPT-4数据精调的效果 2先在简单的pair上训练后再在困难的pair上训练会有更好的效果 实验细节 1训练参数 modelllama-7bdeepspeed zero-3temp0.1 2实验结果 排序数据集使用GPT-4 vs. InstructGPT作为pair时效果最好因为大部分gpt4生成的target都好于后者用sft model训练DPO比llama base model直接进行DPO效果好 4. DPO、PPO、BPO区别 BPO实验结果在 VicunaEval 上使用 GPT-4 进行自动评估BPO 能够大幅提升 ChatGPT、Claude 等模型的人类偏好并助力 llama2-13b 模型大幅超过 llama2-70b 的版本。 二RLAIF模型 谷歌-RLAIFScaling Reinforcement Learning from Human Feedbak with AI Feadback 论文地址https://arxiv.org/abs/2309.00267 核心之前的是RLHF这里将Hhuman替换为AI给予reward在Constitutional AI中就提出过RLAIF了通过混合使用人类与AI偏好组合Constitutional AI自我修正技术deepmind贡献则是做实验比较RLAIF和RLHF在文本摘要任务的表现。解决的问题收集高质量人类偏好标签的瓶颈问题。在 RLHF 中用于训练奖励模型的评分并不一定非要由人类提供也可以使用 LLM这里是 PaLM 2生成。在人类评估者看来用传统 RLHF 方法和 RLAIF 方法训练的模型得到的结果都差不多。 实验过程 1通过LLM实验直接使用了PaLM对两个target按照一定的prompt确定所偏好的target对应的prompt如下few-shot 2实验细节 position bias将两个target调换位置再判断一次最后结果求平均值经过LLM后得到的是target1和target2的概率实验细节labeling preference LLMPaLM 2temp0top-k的k40RL使用reward model进行RLRL没有使用复杂的PPO而是使用更简单的A2CActor Critic进行RL。 3实验结果 证明AI反馈的有效性当比较RLAIF和RLHF摘要时人类对两者都表示出相同的偏好。这意味着使用AI反馈进行训练可以达到与使用人类反馈相似的性能从而为RLHF的可扩展性问题提供了一个潜在的解决方案提供一个潜在的替代方案RLAIF使用现成的LLM来标记偏好而不是依赖人类。研究发现RLAIF和RLHF在改进方面产生了类似的结果。具体来说对于摘要任务人类评估者在大约70%的情况下更喜欢RLAIF和RLHF的输出而不是基线的有监督微调模型。3个评测指标AI Labeler Alignment、Pairwise Accuracy、WinRate 三ReST模型 论文《Reinforced Self-Training (ReST) for Language Modeling》谷歌 deepmind 论文地址https://arxiv.org/abs/2308.08998 核心在之前人类对序列的偏好是使用学得的奖励函数来建模的。ReST 算法将典型 RL pipeline 的数据集增长Grow和策略改进Improve解耦成两个单独的离线阶段。避免了在线RL方法计算成本高、易受到攻击的问题 ReST优势 与在线 RL 相比ReST 由于在 Improve step 中利用了 Grow step 的输出因此计算负担大大减少策略的质量不在受原始数据集质量的限制如离线 RL因为新的训练数据是从 Grow step 中经过采样得到的检查数据质量并判断对齐变得更加容易因为 Improve step 和 Grow step 这两个过程是解耦的ReST 简单、稳定并且只有少量的超参数需要调优。 ReST能用于对齐 LLM 与人类偏好。ReST 使用一种采样方法来创建一个改进版数据集然后在质量越来越高的子集上不断迭代训练从而实现对奖励函数的微调。ReST 的效率高于标准的在线 RLHF 方法比如使用 PPO 的 RLHF因为其能以离线方式生成训练数据集但他们并未全面地比较这种方法与 InstructGPT 和 Llama 2 等中使用的标准 RLHF PPO 方法。 算法过程 四Constitutional AI 论文《Constitutional AI: Harmlessness from AI Feedback》 链接https://arxiv.org/abs/2212.08073 五RRHF模型 RRHFRank Responses to align Human Feedback 论文RRHF: Rank Responses to Align Language Models with Human Feedback without tears 阿里、清华 NeurIPS 2023 链接https://arxiv.org/pdf/2304.05302.pdf 核心在RM数据上优化LM让chosen回答的概率大于rejected回答的概率。在计算句子的条件概率后加上一个ranking loss 2数据实验尝试了不同的数据采样策略 直接用开源RM的数据用自己的模型生成response用开源RM进行排序做出新的RM数据循环执行2类似强化的思维不断靠自身采样到更好的答案 最后的结论也比较符合直接是321。 六ReMax模型 论文ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models 香港大学 核心RL难点将多步后的最终目标转为模型loss。传统RL中可能会导致学习不稳定所以PPO中使用Actor-Critic网络引入一个助教给模型的每一步打分。作者提出用强化中的REINFORCE算法来代替PPO去掉了Critic模型但作者在实验中同样发现了梯度方差较大优化不稳定的问题于是增加了一项bias来降低方差。 实验效果经过ReMax的1.3b模型超过了只经过sft的llama2-7b模型。 七RSO模型 论文Statistical rejection sampling improves preference optimization Reference [1] Rafael Rafailov, Archit Sharma, Eric Mitchell, StefanoErmon, Christopher D Manning, and Chelsea Finn.2023. Direct preference optimization: Your language model is secretly a reward model.arXiv preprintarXiv:2305.18290 [2] DPO(Direct Preference Optimization):LLM的直接偏好优化. 笔记 [3] https://github.com/LAION-AI/Open-Assistant/discussions/3347 [4] DPO——RLHF 的替代之《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》论文阅读 [5] RLAIF细节分享个人想法 [6] RLHF中的PPO算法原理及其实现 [7] InstructGPT pairwise logloss: https://arxiv.org/abs/2203.02155 [8] DPODirect Preference Optimization: Your Language Model is Secretly a Reward Model [9] RLAIFScaling Reinforcement Learning from Human Feedbak with AI Feadback [10] BPO灵活的 Prompt 对齐优化技术 [11] LLM成功不可或缺的基石RLHF及其替代技术 [12] Reinforced Self-Training (ReST) for Language Modeling翻译 [13] 大规模语言模型人类反馈对齐–RLAIF [14] 谷歌团队提出用AI反馈强化学习 (RLAIF) 替代人类进行偏好标注这会对AI研究产生什么影响 [15] 大规模语言模型从理论到实践.第六章.复旦大学 [16] A Survey of Large Language Models.人大综述 [17] LLM Training: RLHF and Its Alternatives. SEBASTIAN RASCHKA, PHD [18] Llama 2: Open Foundation and Fine-Tuned Chat Modelshttps://huggingface.co/papers/2307.09288#64c6961115bd12e5798b9e3f [19] spinningup中文文档https://spinningup.qiwihui.com/zh_CN/latest/ [20] RLHF中的「RL」是必需的吗有人用二进制交叉熵直接微调LLM效果更好 [21] RLHF的替代算法之DPO原理解析从RLHF、Claude的RAILF到DPO、Zephyr [22] DPO: Direct Preference Optimization训练目标推导 [23] 强化学习极简入门通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO [24] KL-Divergence详解 [25] ChatGPT调研报告.哈工大实验室HIT-NLP [26] 多 Agent 深度强化学习综述.《自动化学报》 [27] 一些RLHF的平替汇总 [28] Contrastive Post-training Large Language Models on Data Curriculum: https://arxiv.org/abs/2310.02263 [29] 理解Rejection Sampling: https://gaolei786.github.io/statistics/reject.html [30] DeepMind新研究ReST让大模型与人类偏好对齐比在线RLHF更有效 [31] 影响PPO算法性能的10个关键技巧附PPO算法简洁Pytorch实现 [32] 论文阅读-MOSS-RLHFPPO [33] https://github.com/GanjinZero/RRHF [34] 论文阅读-MOSS-RLHFPPO [35] https://github.com/OpenLMLab/MOSS-RLHF [36] 添加链接描述影响PPO算法性能的10个关键技巧附PPO算法简洁Pytorch实现 [37] DPO——RLHF 的替代之《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》论文阅读 [38] Llama 2开源RHLF微调对话模型 [39] Secrets of RLHF in Large Language Models Part I: PPO [40] 大模型训练的一些坑点和判断.包包 [41] Fine-tuning OpenAI GPT-3 using a custom reward model 基础 [1] 强化学习极简入门通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO [2] “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程.huggingface [3] ChatGPT的RLHFAI时代的“调速器”让AI真正可用的关键 [4] 【他山之石】如何正确复现 Instruct GPT / RLHF? [5] https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback [7] Training language models to follow instructions with human feedback2022 [8] InstructGPT论文解读.李响 [9] ChatGPT训练三阶段与RLHF的威力.oneflow 在 InstructGPT 论文之前的这四篇论文中找到PPO的相关数学细节 (1) 《Asynchronous Methods for Deep Reinforcement Learning》引入了策略梯度方法来替代基于深度学习的强化学习中的 Q 学习。 (2) 《Proximal Policy Optimization Algorithms》提出了一种基于修改版近端策略的强化学习流程其数据效率和可扩展性均优于上面的基础版策略优化算法。 (3) 《Fine-Tuning Language Models from Human Preferences》阐释了 PPO 的概念以及对预训练语言模型的奖励学习包括 KL 正则化以防止策略偏离自然语言太远。 (4) 《Learning to Summarize from Human Feedback》引入了现在常用的 RLHF 三步流程后来的 InstructGPT 论文也使用了该流程。
http://www.dnsts.com.cn/news/166217.html

相关文章:

  • 利用php做网站教程wordpress像说明书一样的页面
  • 益阳网站建设公司电话青岛网页设计
  • 桂林做手机网站设计如何开通网站
  • wordpress页码插件搜索引擎优化百度百科
  • 高清的网站制作衡阳房产网站建设
  • 整站快速排名宁波专业网站建设公司
  • 互联网网站分了郓城住房和城乡建设局网站
  • 高大上的平面设计网站最新国际足球世界排名
  • 沧州做网站推广wordpress用户站点
  • 网站所有者查询女生做网站编辑好不好
  • 合肥网站搭建电子商务网站建设的方法有哪些
  • wap 企业网站注册一个投资公司需要多少钱
  • 沈阳网站 房小二信游天下网站建设
  • 网站建设的行业新闻网站那个做的比较好的
  • 专业做相册书的网站网络营销工作
  • 阳江网站seo服务论坛型网站开发
  • ASP做旅游网站代码无法定位wordpress内容目录(wp-content).
  • 网站改版的前端流程专业做图表的网站
  • 大连手机自适应网站建设wordpress php缓存
  • 威海城乡和住房建设局网站网站建设合同交印花税么
  • 西宁 网站建设设计网站专题页包括那些项目
  • 怎么做软文网站app系统开发费用
  • 三点水网站建设合同书网站建设冫首先金手指十五
  • 网站建设课程的感想网站建设与管理适合女生学吗
  • 找个人做网站室内设计网站哪些号
  • 效果图在哪个网站可以找比较好凤岗网站建设公司
  • 用子域名可以做网站吗做网站为什么要租服务器
  • 贵池网站建设阿里云做电影网站
  • 分包合同建设局网站下载18互联网站做网站程序
  • 国内最先做弹幕的网站更改wordpress后台logo