当前位置: 首页 > news >正文

域名有永久的吗沈阳seo关键词排名

域名有永久的吗,沈阳seo关键词排名,wordpress 数据库 破解,asp.net做网站如何展示界面强化学习算法总结 (1) 1.综述 强化学习是通过与环境进行交互#xff0c;来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1​−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy ar…强化学习算法总结 (1) 1.综述 强化学习是通过与环境进行交互来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1​−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy argmax_{policy} E_{(a,s)}[reward(s,a)] policyargmaxpolicy​E(a,s)​[reward(s,a)] 强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。 1.2 平衡与探索 ​ 策略告诉我们应该采取哪些动作同时也要对新的策略进行探索。 这里引入一个概念为懊悔值当前动作a的收益与最优结果的差距 ϵ − g r e e d y \epsilon - greedy ϵ−greedy 策略 i f : 采样概率 1 − ϵ a t a e g m a x Q a e l s e : 随机策略 if:采样概率1 - \epsilon \\ a_t aegmaxQa\\ else:\\ 随机策略 if:采样概率1−ϵat​aegmaxQaelse:随机策略 但是结果来看积累的懊悔值是和和时间成正比的因为随机拉杆的探索概率是固定的 上置信界法UCB a t a r g m a x α [ Q ( A ) ] a_t argmax_\alpha [Q(A)] at​argmaxα​[Q(A)] 汤普森采样 2. 马尔科夫决策过程 MDP利用当前已知的信息就可以决定未来 采样根据状态转移矩阵生成一个状态序列 s 1 − s 2 − . . . − s n s_1 - s_2 - ...- s_n s1​−s2​−...−sn​ 2.1 马尔科夫奖励过程 在决策过程中加入了奖励函数r和折扣因子形成了马尔科夫奖励过程 S , P , r , γ S,P,r,\gamma S,P,r,γ,状态集合状态转移矩阵奖励函数折扣因子 G t R t γ R t 1 . . . ∑ γ k R t k G_t R_t \gamma R_{t1}... \sum \gamma^k R_{tk} Gt​Rt​γRt1​...∑γkRtk​ 价值函数 V ( s ) E [ G t ∣ S t s ] 我们把 G t 拆开 R t γ V ( s t 1 ) 而后面的 E ( γ V ( s t 1 ∣ s t s ) ) 用状态转移函数表示 V ( s ) r ( s ) γ ∑ P ( s ′ ∣ s ) V ( s ′ ) V(s) E[G_t |S_t s]\\我们把G_t 拆开R_t \gamma V(s_{t1}) 而后面的E(\gamma V(s_{t1}|s_t s)) 用状态转移函数表示\\V(s) r(s) \gamma\sum P(s|s)V(s) V(s)E[Gt​∣St​s]我们把Gt​拆开Rt​γV(st1​)而后面的E(γV(st1​∣st​s))用状态转移函数表示V(s)r(s)γ∑P(s′∣s)V(s′) 只适用于规模比较小的马尔科夫过程计算价值函数不然使用 MCTD动态规划等算法 2.2 马尔科夫决策过程 MDP;S,A,P,r, γ \gamma γ:这里不再使用状态转移矩阵而是状态转移函数 S:状态合集A:动作合集 γ \gamma γ:折扣因子r(s,a)奖励函数收到了s和a影响P(s’|s,a)状态转移函数 策略 π ( a ∣ s ) P ( A t a ∣ S t s ) \pi(a|s) P(A_t a| S_t s) π(a∣s)P(At​a∣St​s):表示当前状态下采取这个策略a的概率。如果是一个随机策略输出是关于动作的概率分布函数 状态价值函数 V π E π [ G t ∣ S t s ] V^{\pi} E_{\pi}[G_t | S_t s] VπEπ​[Gt​∣St​s] 当前状态下预计未来的收益 动作价值函数 Q π ( s , a ) E π [ G t ∣ S t s , A t a ] Q^{\pi}(s,a) E_\pi[G_t | S_t s ,A_t a] Qπ(s,a)Eπ​[Gt​∣St​s,At​a] 在遵循当前策略下执行动作a的收益 V π ( s ) ∑ π ( a ∣ s ) Q π ( s , a ) V^\pi(s) \sum\pi(a|s) Q^\pi (s,a) Vπ(s)∑π(a∣s)Qπ(s,a) 贝尔曼期望方程 Q π ( s , a ) E π [ R t γ Q π ( s ′ , a ′ ) ∣ S t s , A t a ] r ( s , a ) γ ∑ V ( s ′ ) r ( s , a ) γ ∑ P ( s ′ ∣ a , s ) ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi (s,a) E_\pi[R_t\gamma Q^\pi(s,a)|S_t s,A_t a] \\ r(s,a) \gamma\sum V(s) \\ r(s,a) \gamma\sum P(s|a,s)\sum \pi(a|s)Q^\pi(s,a) Qπ(s,a)Eπ​[Rt​γQπ(s′,a′)∣St​s,At​a]r(s,a)γ∑V(s′)r(s,a)γ∑P(s′∣a,s)∑π(a′∣s′)Qπ(s′,a′) V π ( s ) E π [ R t γ V π ( s ′ ) ∣ S t s ] ∑ π ( a ∣ s ) ( r ( s , a ) γ ∑ P ( s ′ ∣ s , a ) V π ( s ′ ) ) V^\pi(s) E_\pi[R_t\gamma V^\pi(s)|S_t s] \\\sum\pi(a|s)(r(s,a)\gamma\sum P(s|s,a)V^\pi(s)) Vπ(s)Eπ​[Rt​γVπ(s′)∣St​s]∑π(a∣s)(r(s,a)γ∑P(s′∣s,a)Vπ(s′))
http://www.dnsts.com.cn/news/213714.html

相关文章:

  • 湖南自考网站建设与管理建筑网片厂家货源平台
  • 泰兴市城乡住房建设局网站百度的宣传视频广告
  • 安阳做网站多少钱免费人体做爰网站
  • 无锡网站设计公司电话网站建设的基本准则是什么
  • 华为网站建设目标wordpress页面调用分类文章列表
  • 长沙网站列表腾讯企业网页设计
  • 河北住房和城乡建设厅官方网站网站支付怎么做
  • cms 企业网站管理系统局域网内服务器做网站
  • 网站直播怎么做wordpress文章置顶插件
  • 南京酒店网站制作怎么接网站建设的单子
  • 商城网站建设服务cms开源框架
  • 深圳自适应网站公司在哪里可以学习做网站
  • 网站 别名免费网上教学平台
  • 旅游网站源码下载影视广告公司网页设计
  • 广州网站公司建设移动端网站模板
  • 网站建设需要ui吗富阳市网站
  • 长沙 建站优化中信建设有限责任公司属于央企吗
  • 河南省住房和建设厅网站地产网站建设案例
  • 深圳规划建设局网站茂名网站开发公司推荐
  • asp源代码网站南阳做网站公司哪家好
  • 北京网站建设公司排行企业所得税只对企业征收吗
  • 曼斯特(北京)网站建设公司在线表白网页制作
  • 网站版面设计说明wordpress 禁止注册
  • 国外免费建站好看的学校网站首页
  • 望牛墩东莞网站建设域名访问升级紧急中拿笔记好
  • 做服务的网站吗百度的首页
  • 宝安有效的网站制作专做hip hop音乐的网站
  • 网站优化方案教程呼和浩特网站优化公司
  • 怎样做网站的子网南通手机建站模板
  • 网络游戏制作上海网站seo牛巨微