当前位置: 首页 > news >正文

做酒类网站网站建设 域名 数据库

做酒类网站,网站建设 域名 数据库,wordpress主题乱,设计制作一个企业类型网站白盒环境和黑盒环境 白盒环境#xff1a;知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)#xff1a;   白盒环境下的学习相当于直接给出了有监督学习的数据分布#xff08;就是有了目标靶子#xff09;#xff0c;不需要采样了#xff0c;直接最小…白盒环境和黑盒环境 白盒环境知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)   白盒环境下的学习相当于直接给出了有监督学习的数据分布就是有了目标靶子不需要采样了直接最小化泛化误差更新模型参数。   对于马尔可夫决策过程MDP在白盒环境下即known MDP就可以直接用动态规划算法策略迭代算法、价值迭代算法求解出最优状态价值函数和最优策略控制或者求出某一策略下的价值函数预测。 黑盒环境不知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)   黑盒环境就只能采集数据尽可能的靠近靶子学习即最小化数据的误差更新参数训练出的模型是否接近真是模型就要看采集的数据的量。   大部分强化学习现实场景马尔可夫决策过程MDP是黑盒环境。对于马尔可夫决策过程MDP在不知道环境的状态转移函数和奖励函数下或者是known MDP但环境太大太复杂无法去使用就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数控制或者求出某一策略下的价值函数预测。这两种方法都是基于采样的数据来更新的直接使用和环境交互的过程中采样到的数据来学习。 确定性策略和随机性策略 策略就是评判智能体在特定时间点的表现。把每一个状态和它所对应的最佳行动建立联系。 策略分为两种 · 确定性策略某一个特定状态下的策略永远都会给出同样的行动。 · 随机性策略策略给出的是多种行动的可能性分布。 一 策略迭代 策略迭代包含两个主要步骤策略评估Policy Evaluation和策略改进Policy Improvement。 策略评估 在策略评估步骤中我们计算给定策略 π 的状态价值函数 Vπ(s)。这是通过迭代更新每个状态的价值来实现的直到达到稳定状态。 更新公式 其中 π(at,st)表示状态 st 下选取动作 at的概率p(st1†st,at)表示状态 st转移到st1的概率。 策略改进 策略改进步骤利用当前价值函数来生成一个更好的策略。这通过为每个状态选择最大化预期回报的动作来实现。 改进公式 策略迭代交替进行策略评估和策略改进直到策略收敛。 初始策略的设置可以采用随机策略或者某种启发式方法。随机策略是随机选择动作目的是用各个动作与环境交互探索环境获取更全面的数据。启发式方法是通过专家知识或经验指导选择相对较优的策略可以加快模型的收敛速度。 二 值迭代 值迭代是一种更直接的方法它通过迭代更新状态价值函数来直接找到最优策略。 从上例的策略评估中可以看出迭代10次和迭代无穷次所得到的贪心策略是⼀样的。因此对于上面的问题不一定让策略评估和策略改进反复交替多次而是用贝尔曼最优方程一次性确定各个状态的 Vπ(s)再用这些最优状态值函数Vπ(s)计算动作值函数 Q(s,a) 最后取Q(s,a)最大的动作这就是值函数迭代算法。 更新公式 值迭代在每次迭代中对状态价值函数进行更新直到收敛。最优策略可以通过选择在每个状态下最大化价值函数的动作来确定。 三 策略迭代 vs 值迭代 3.1 局限性 策略迭代算法和值迭代算法当状态和动作数量有限时经过有限次迭代即可收敛到近似最优策略但都需要非常多的迭代次数才能完成因此适合状态和动作都离散且数量不多的情况。 在实际应用中有如下的局限性 1要求模型已知即需要知道状态转移概率p和奖励函数r。但实际应用中这个要求很难满足。如果事先不知道模型就需先让智能体与环境交互来估计模型即估计状态转移概率和奖励。因过程比较复杂只能用于状态比较少的场合。 2效率问题。当状态数量较多时算法效率比较低。在实际应用中很多问题的状态数量和动作数量非常多比如围棋有19×19 361个位置每个位置有黑子、白子或无子三种状态整个棋局有 3361种状态。对于这种情况无论是值迭代还是策略迭代以当前计算机的计算能力根本无法计算。比较有效的方法是通过一个函数比如神经网络来近似计算值函数以减少复杂度并提高泛化能力应用范围和效果。 3.2 两者对比 策略迭代通常需要更多的时间来收敛因为它在每个策略下进行完整的策略评估。但是一旦收敛就得到了最优策略。 值迭代通常收敛速度更快但可能在找到最优策略之前就停止迭代。 基于策略与基于价值的优势 从图中我们可以看到策略直接指出了每一步的最佳行动, 基于策略的方法往往比基于值的方法收敛到更好的解决方案。原因是解决方案是梯度推出来的而梯度总是指向微分函数的最陡峭方向。当运用误差函数并采用梯度下降法时每一步都做都会让误差函数的值最小化。但是如果几个动作间的差异比较小基于值的方法产生的结果差异更大无法保证收敛。值函数需要明确定义的环境在该环境下动作会产生确定的结果。如果学习过程是随机的那么在采取相同动作时可能有不同的结果观测这样值函数就没法使用了。基于策略的方法不需要采取相同的动作来探索环境。在高维空间内基于策略的方法的计算成本更低计算的更快。这是因为基于值的方法要求我们为每一种可能的动作计算一个价值。如果空间中的动作太多了值函数就不会收敛于一个解决方案。基于策略的方法不同因为本质上只是让我们执行动作并且调整梯度。 四 泛化迭代 策略迭代法的中心是策略函数通过策略评估策略提升两个步骤使策略变得越来越好 价值函数通过自我更新、动态规划的方式不断迭代更新价值函数并最终求出策略函数。 两个方法都要求策略函数和价值函数最终最优的策略函数都是由价值函数得到的价值函数依据函数的数值收敛策略函数依据策略收敛 我们发现了一个关键那就是两者都需要训练策略函数和价值函数只是侧重点不同。 策略迭代的核心是策略为了使策略能够提升价值函数可以求解得准确也可以求解得不准确 价值迭代的核心是价值算法的核心部分根本没有出现与策略有关的内容直到最后才出现了策略。 两种方法都十分看重自己关心的那部分而可以选择忽略另一部分因此可以看出两个方法都比较极端。既然我们找到了两个极端的方法那么我们可不可以找到两种方法的中间带呢当然是可以的这就是本节要介绍的泛化迭代法英文一般称为Generalized Policy Iteration但我觉得这个词里只出现Policy是不够准确的。 上面这条线是价值函数价值函数是连续的所以这条线并不难得到。而对于价值迭代的算法则是一直在上面那条线上行走 图中的折线主要表达了策略迭代的算法我们选定某个策略求解价值函数然后更新策略这样优化的轨迹会不断地在两条主线上跳动。 泛化迭代 我们先做几轮价值迭代然后再做策略迭代这样的方法同样可以得到正确的结果但是可能会有更快的速度。
http://www.dnsts.com.cn/news/61054.html

相关文章:

  • 专业网站优化外包威海人社app下载官网2022
  • 最佳线上网站制作模板首页关键词排名代发
  • 网站视频打不开什么原因宽带
  • 做多站发布信息的网站老版51个人空间找照片
  • 重庆高端网站设计标书制作培训机构
  • 成都高端网页开发公司天津网站的优化
  • 网站建设 电子商务网站开发做网站应该注意
  • 福田做棋牌网站建设哪家技术好软件之家
  • 淄博网站建设优化上汽如何构建自己的网站
  • 江门网站关键词推广我要表白网app
  • 怎样建个自己的网站烟台制作网站的公司
  • 湖南做网站 地址磐石网络电子商城建设
  • 建立企业网站的缺点在哪个网站可以学做衣服
  • 建立个人网站费用win7可以做网站吗
  • asp.net怎么做登录网站公司网站首页导航html
  • 网站制作和设计需要多少钱wordpress多个置顶
  • 用mediawiki做的网站网站建设 400电话 广告
  • 怎么样建网站卖东西宝坻做网站
  • 做超市dm的网站美颂雅庭装饰公司电话
  • 罗湖医院网站建设专注网站平台推广公司
  • 泉州网站建设-泉州网站建设做音乐网站的目地
  • 齐河县建设局网站四川住建局和城乡建设厅
  • 天津住房和城乡建设建造师网站网页设计表单注册代码
  • 那家建网站宝盒好用网站建设的课程设计报告
  • 阿里巴巴网站网络营销的影响网站建设全过程及如何赚钱
  • 济南微网站开发西安网站制作公司推荐
  • 扬子科技网站建设手机wap网站是什么
  • 注册域名建设网站网上哪个网站做的系统好用
  • 成都网站建设木子网络网址百度刷排名
  • 移动网站建设是什么意思成都建设高端网站