当前位置: 首页 > news >正文

网站开发框架的作用wordpress 4 中文手册

网站开发框架的作用,wordpress 4 中文手册,网站开发进度安排,wordpress 课程预定 插件强化学习算法的基本思想#xff08;直觉#xff09; 众所周知#xff0c;强化学习是能让智能体实现某个具体任务的强大算法。 强化学习的基本思想是让智能体跟环境交互#xff0c;通过环境的反馈让智能体调整自己的策略#xff0c;从反馈中学习#xff0c;不断学习来得到…强化学习算法的基本思想直觉 众所周知强化学习是能让智能体实现某个具体任务的强大算法。 强化学习的基本思想是让智能体跟环境交互通过环境的反馈让智能体调整自己的策略从反馈中学习不断学习来得到最优的策略即以最优的方式实现某个具体任务。 形式化强化学习的直觉将算法的直觉变成可以量化的数学形式 经过大量的研究人们探索出一种适用于实现强化学习这个目标的数学框架——马尔科夫决策过程。 其实这个框架也不复杂通过理解强化学习的思想想想就知道起码得有这些简单的东西 智能体的动作肯定要行动才能达成某个任务的目的环境的状态智能体要根据环境状态决定自己要怎么样行动环境的反馈智能体每次行动完需要得到反馈才能知道自己的行动好还是不好 仅仅从直觉上看差不多是这三个因为直觉还是比较抽象的要带入实际的案例才会发现还缺少哪些东西。 比如随便想想下围棋的时候是不是从下棋一开始到胜利都全部被智能体接管了所以在这个过程中智能体需要连续进行行动那么问题就来了我定义只有下棋最终胜利的那一步行动才有奖励正反馈其余行动都没有奖励这个定义很合理吧但是在这个过程中每一步都没有奖励也就相当于没有反馈那智能体还怎么学习呢 所以这个时候又要靠直觉思考一下虽然围棋在胜利前每一步都没有奖励但是这并不代表每一步都没有价值如果是一个围棋高手他下的每一步棋都是为了最后的胜利而铺垫的可以说每一步棋的价值都很大。所以直觉上想通了怎么把直觉转化为数学上可以精确量化的定义呢 其实可以使用累积奖励作为该行动的价值具体就是从当前状态出发一直按照某个决策行动下去到最后游戏结束得到的奖励总和公式很简单就是 G ( S t ) Σ k t R k 1 G(S_t) \Sigma_{kt} R_{k1} G(St​)Σkt​Rk1​即表示从时刻t开始棋盘状态为S该时刻的状态按照智能体的策略一直执行下去到最终游戏结束得到的奖励累计之和就用这个表示当前状态S的价值。不过实操起来还是有问题第一我希望以尽可能短的步数赢下比赛而这个公式似乎没有对于步数的惩罚1000步赢下比赛和100赢下比赛的奖励总和是一样的所以要进行修正这里我们引入一个折扣因子 γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ∈[0,1]每走一步就要将当前行动得到的奖励乘以 γ \gamma γ这样步数越多最后得到的奖励越少公式是 G ( S t ) Σ k 0 γ k R t k 1 G(S_t) \Sigma_{k0} \gamma^kR_{tk1} G(St​)Σk0​γkRtk1​。 这样看起来就很完美了是吧还没完这个累加公式看起来很不错但是缺少了关键的信息这个公式是把每次行动后跳到一个状态时得到的奖励进行折扣累加但是我怎么知道从一个状态做出行动后会跳到哪一个动作呢假设t时刻环境处于状态 S t S_t St​智能体进行行动 A t A_t At​之后环境变成什么样子了即我想知道某个状态执行某个动作之后跳转到下一个状态这之间的映射关系即 S t 1 f ( S t , A t ) S_{t1} f(S_t, A_t) St1​f(St​,At​)这个函数具体是什么样子不过这个函数映射的形式是确定性的就是说 S t S_t St​和 A t A_t At​确定了之后 S t 1 S_{t1} St1​也就唯一确定了但很多情况往往是不确定的比如你每学期你的状态都是摆烂然后考试前你的行动都是通宵复习但有时候你挂科了有时候你及格了还有时候你满分了这就是不确定的这是有概率的当然在及格边缘的概率更大所以我们定义这个环境变换的映射情况就叫做状态转移概率即 P ( S t 1 ∣ S t , A t ) P(S_{t1} \mid S_t,A_t) P(St1​∣St​,At​)。当然对于游戏来说都是一般都是确定的概率直接为1或者0就行。 总结一下马尔科夫决策模型包含以下几个东西 S S S环境状态的集合 A A A智能体动作的集合 r ( s , a ) r(s,a) r(s,a)每个状态下行动后得到奖励函数人为定义 P ( s ′ ∣ s , a ) P(s\mid s, a) P(s′∣s,a) 环境的状态转移概率 γ \gamma γ折扣因子 马尔科夫决策过程终于写完了啰啰嗦嗦写了一大堆强化学习的思想直觉两句话就搞定把强化学习的思想形式化需要写这么多看来直觉是不负责任的将直觉转化成数学才是负责任的难的东西。终于知道为什么有的论文明明很简单的方法却能写那么多页了因为将直觉形式化、数学化这中间有很多细节需要商榷和讨论。 不过这还只是强化学习算法的前提框架在这个框架下各种算法的挖掘才是大头。 利用马尔科夫决策过程提供的抽象框架来真正得到最优决策 写累了前面说一大堆其实最后都是为了能够求解出智能体针对某个具体任务的最优决策。有了前面的基础后面的求解算法其实没那么复杂了我也写累了所以这部分直接精简逻辑让最本质的东西呈现出来很简单。 我们想得到最优策略这只是直觉上还是那句话形式化到数学上其实就是最大化累计奖励。从某个状态出发智能体进行一系列的决策已经得到了最大的累计奖励再也没有别的决策能得到比这个决策更大的累计奖励了所以自然该决策就是最优决策。 现在这个圈子内把这个累计奖励直接叫做回报Return用 G t G_t Gt​表示从t时刻或者从某个状态开始一直到结束得到的累计奖励那么随便游戏从什么时候什么状态开始我都希望该智能体的决策能够得到最大化的回报。 π \pi π代表的是智能体的策略更具体一点就是在状态 s s s下采取行动 a a a的策略同样策略一般也是用一个概率分布表示即 π ( a ∣ s ) \pi(a \mid s) π(a∣s)。前面说到用累计奖励作为状态的价值其实就是用某个状态的回报作为该状态的价值不过因为回报 G t G_t Gt​其实是一个随机变量由状态转移概率 p ( s ′ ∣ s , a ) p(s|s,a) p(s′∣s,a)和 π ( a ∣ s ) \pi(a |s) π(a∣s)这两个分布决定所以不好直接量化状态的价值不过随机变量的期望是一个确定的值可以作为量化的标准所以很自然的某个状态s的价值就可以化为这样一个状态价值函数 v π ( s ) E ( G t ∣ S t s ) v_{\pi}(s) E(G_t|S_ts) vπ​(s)E(Gt​∣St​s)这个方程表示从t时刻开始环境的状态是 s s s在这个给定的条件下 G t G_t Gt​回报的期望就是状态s的价值。 那现在其实就秀一下数学推理能力把 v π ( s ) E ( G t ∣ S t s ) v_{\pi}(s) E(G_t|S_ts) vπ​(s)E(Gt​∣St​s)这个公式展开然后经过三四步推理很容易就能得到推理要注意条件期望怎么展开怎么求这一步有点绕不过小心点还是很容易就能推出来 v π ( s ) E [ R t 1 γ v π ( s ′ ) ] v_{\pi}(s) E[R_{t1} \gamma v_{\pi}(s)] vπ​(s)E[Rt1​γvπ​(s′)]这就是贝尔曼方程即当前状态 s s s的价值可以用下一个状态 s ′ s s′的价值来表示。贝尔曼最优方程就是价值最大的那个 v π ∗ m a x π v ( s ) v_{\pi}^* max_{\pi}v(s) vπ∗​maxπ​v(s)。 那这个时候不要忘记我们的初心我们如果得到了最大的 v ( s ) v(s) v(s)代表当前的策略是最优的策略但这个最优的策略我怎么形式化表示出来呢换句话说处于状态 s s s时我要选择什么样的动作a呢显然在状态s下我要选择价值最大的那个 a a a这个价值最大是不是很熟悉同理我们也可以定义状态-动作函数 q π ( s , a ) q_{\pi}(s,a) qπ​(s,a)那这个 q π ( s , a ) q_{\pi}(s,a) qπ​(s,a)等于什么呢还是跟之前一样的还是用累计奖励呗 q π ( s , a ) E [ R t 1 γ q π ( s ′ , a ′ ) ∣ S t s , A t a ] q_{\pi}(s,a) E[R_{t1}\gamma q_{\pi}(s,a) | S_ts,A_ta] qπ​(s,a)E[Rt1​γqπ​(s′,a′)∣St​s,At​a] 直观来看 q π ( s , a ) q_{\pi}(s,a) qπ​(s,a)与 v π ( s ) v_{\pi}(s) vπ​(s)应该满足这样的关系在状态s下智能体可以有多个动作可以选择 a 1 , a 2 , . . . a_1,a_2,... a1​,a2​,...所以 v π ( s ) v_{\pi}(s) vπ​(s)应该是 q π ( s , a ) q_{\pi}(s,a) qπ​(s,a)关于a的期望即 v π ( s ) Σ a ∈ A π ( a ∣ s ) q π ( s , a ) v_{\pi}(s) \Sigma_{a \in A}\pi(a|s)q_{\pi}(s,a) vπ​(s)Σa∈A​π(a∣s)qπ​(s,a) 言归正传我要得到最优策略的形式化表述其实就是希望在每个状态下面采取价值最大的那个行动即希望找到 q π ∗ ( s , a ) m a x π q ( s , a ) q_{\pi}^*(s,a) max_{\pi}q(s,a) qπ∗​(s,a)maxπ​q(s,a)。那么根据 v π ( s ) v_{\pi}(s) vπ​(s)和 q π ( s , a ) q_{\pi}(s,a) qπ​(s,a)的关系其实可以推导出来 q π ( s , a ) R s a γ Σ s ′ ∈ S P s s ′ a v π ( s ′ ) q_{\pi}(s,a) R_s^a\gamma \Sigma_{s\in S}P_{ss}^av_{\pi}(s) qπ​(s,a)Rsa​γΣs′∈S​Pss′a​vπ​(s′)。那其实问题就解决了找到最优的 v π ∗ m a x π v ( s ) v_{\pi}^* max_{\pi}v(s) vπ∗​maxπ​v(s)就行了。 那该怎么求解 v π ∗ v_{\pi}^* vπ∗​呢
http://www.dnsts.com.cn/news/136530.html

相关文章:

  • 周口市住房和城市建设局网站wordpress大学 永久链接
  • 免费自助制作永久网站没有网站如何做cps
  • wordpress本站导航在哪里dz 做企业网站
  • 重庆做企业年报在哪个网站做重庆建设工程信息网官网安全员证书查询
  • 如何给网站添加cnzz网站建设的三个步骤是什么
  • 济南网站建设推荐搜点网络NO1阿里域名注册网站
  • 昆明网站建站wordpress头像缓存
  • 哪一家网站做简历网站项目申请
  • 初学者学做网站用什么软件丹阳企业网站
  • 网站的背景图怎么做的网络营销推广的案例
  • 西山区建设局网站乌镇旅游攻略自由行
  • 化妆品网站内容规划阿瓦提网站建设
  • 网站设计服务合同网络营销推广的方式和特点
  • 中企动力网站模板海南省工程建设定额网站
  • tool站长工具网站结构优化的优化包括
  • 营销外贸网站建设房产网南京
  • 广元专业高端网站建设成都好的网站建设公司
  • 色轮配色网站沈阳商城网站开发
  • 企业网站建设解决方案报告论文网络seo优化
  • 网站建设活动海报渝叶购零售客户电商网站
  • 网站空间和域名万众城网站建设
  • 珠宝网站模版免费下载软件大厅
  • 徐州网站公司网站是先解析后备案
  • 潍坊建设工程信息网站微信公众号设计网站
  • 株洲企业网站建设wordpress 代码 视频
  • 如何制作一个单页网站king 主题WordPress
  • 企业网站系统那个好想制作一个网站要多少钱
  • ui设计作品欣赏网站柳河县建设局网站
  • 网站建设报价模块广州小程序开发定胜
  • 网站设计团队有哪些职业建设银行公积金网站