网站建设的各个环节,做网站免责声明,公司的网站怎么运营,模板建站服务公司1. Policy Gradient
【李宏毅深度强化学习笔记】1、策略梯度方法#xff08;Policy Gradient#xff09; 李宏毅深度强化学习-B站
2. PPO
PPO 算法
PPO算法更新过程如下#xff1a;
初始化policy参数 θ 0 \theta^0 θ0在每一步迭代中#xff1a; 使用 θ k \theta^k …1. Policy Gradient
【李宏毅深度强化学习笔记】1、策略梯度方法Policy Gradient 李宏毅深度强化学习-B站
2. PPO
PPO 算法
PPO算法更新过程如下
初始化policy参数 θ 0 \theta^0 θ0在每一步迭代中 使用 θ k \theta^k θk与环境交互来收集数据 { s t , a t } \{s_t, a_t\} {st,at}然后计算优势函数 A θ k ( s t , a t ) A^{\theta^{k}}(s_t, a_t) Aθk(st,at) θ k \theta^k θk是前一轮迭代得到的参数优化目标函数 J P P O ( θ ) J_{PPO}(\theta) JPPO(θ)注意这里与policy gradient 不同更新完参数可以继续训练一直优化该目标函数但是policy gradient更新完参数后必须重新采样
policy gradient 应该是每个mini batch更新参数后就要重新采样而PPO可以跑完一个epoch再重新采样