当前位置: 首页 > news >正文

南宁百度网站建设深圳室内设计培训

南宁百度网站建设,深圳室内设计培训,宣传链接用什么软件,wordpress修改标题近年来强化学习算法广泛应用于游戏对抗上#xff0c;通用的强化学习模型一般包含了Actor模型和Critic模型#xff0c;其中Actor模型根据状态生成下一步动作#xff0c;而Critic模型估计状态的价值#xff0c;这两个模型通过相互迭代训练#xff08;该过程称为Generalized …近年来强化学习算法广泛应用于游戏对抗上通用的强化学习模型一般包含了Actor模型和Critic模型其中Actor模型根据状态生成下一步动作而Critic模型估计状态的价值这两个模型通过相互迭代训练该过程称为Generalized Policy Iteration GPI过程最终将收敛到某个近优的点。 但对于围棋游戏来说早些年很多人作为通过计算机来战胜人类顶尖棋手是不可能的因为围棋总共下法大概在范围比可观测宇宙的原子数目都要大很多如此巨大的状态空间和动作空间通过传统的强化学习方法来进行探索几乎是不可能的。 早期Alphago所采用方法是先通过监督学习专家决策序列然后再通过强化学习策略来优化。而Alphago Zero是Alphago的升级版它完全依赖自我对弈的强化学习无需人类专家的动作监督。 Alphago Zero通过采用MCTS策略从大量的动作空间中搜索当前最优的动作序列然后让模型根据这些最优动作序列进行训练不需要先监督学习专家决策就能通过自我学习达成最优的效果。 Alphago Zero的训练主要分为了self-play、训练网络和网络评估三个阶段 1. self-play阶段 在self-play阶段采用了一种高效样本探索策略MCTSMonte Carlo Tree Search其从庞大的动作空间中寻找出当前最优的动作序列并将其作为后续强化模型训练的优质样本。通过这种方式MCTS能够在大规模、复杂的环境中做出明智且有效的决策并帮忙逐步优化强化模型的学习。 在每轮self-play过程中都会通过MCTS策略采样生成一系列的游戏轮数每轮游戏都是指游戏结束直接出现获胜者或者游戏步数达到设定最大值以当前游戏得分判定获胜者。 每轮游戏都包含围棋双方在整轮过程全部状态State、动作Action、价值Value元组其都是根据MCTS策略进行决策和计算的。每轮游戏在开始前会构建一个搜索树然后依次根据当前状态决策动作具体决策动作方式 在每轮self-play过程中通过MCTS策略进行采样生成一系列的游戏轮次。每轮游戏以两种方式结束一是游戏直接出现获胜者二是游戏步数达到设定的最大值此时根据当前游戏得分判定获胜者。 每轮游戏都会记录下围棋双方的完整过程包括每步中状态State、动作Action和价值Value等信息这些数据都是基于MCTS策略进行决策和计算的。 状态State这是围棋的当前局面包括棋盘上的黑白棋子布局、提子情况等。 动作Action这是围棋的下一步行动如落子在棋盘的某个位置。 价值Value当前状态下的获胜概率 每轮游戏在开始之前会构建一个搜索树然后根据当前状态依次决策动作。具体决策动作的方式如下 动作选择概率计算其中是归一化因子是温度控制的超参数可以随着本轮动作进行会越趋向于选择概率最大的动作。 的计算逻辑如果已经在搜索树中即该轮游戏已经探索。 选择最优的动作此时为的一次访问是一个平衡先验后验动作概率的超参数。 表示当前状态-动作的价值估计累计值表示从继续探索直到遇到一个未探索的结点表示当未探索结点为对手状态时取负号否则为正号。 表示当前状态-动作在本轮游戏的访问次数每轮访问后$1$ 表示当前状态的本轮游戏的访问次数 表示归一化的模型先验预估动作概率 如果不在搜索树中即未被探索。 通过模型求解、并返回。 上述过程也可以用select、expand、Backup、play四个阶段来表示 Select表示选择最优的动作Expand表示在选择最优动作后一直继续探索直到一个未探索的结点通过模型预估其先验动作概率及状态价值如果是中途遇到已探索的结点通过Select选择最优的动作。Backup表示在探索直到一个未探索的结点后沿路径更新树上各状态结点的、Play该轮游戏采样并确定动作进入下一状态。 2. 训练网络阶段 经过每轮self-play后会生成一系列的游戏轮数每轮游戏都会保存正反双方在每步的状态、动作概率、价值作为此轮网络训练阶段的数据其中 表示当前状态所属棋方最终是否胜出其值为,分别表示负平胜。 表示根据该轮游戏在过程中的双方的得分数归一化的值。 表示该轮游戏总共的走子数该项主要是为了平衡初始开局的噪声。 最终loss包含了三个部分动作分类交叉熵损失、价值预估的MSE损失、参数正则项 3. 网络评估阶段 该阶段主要判断上述经过新一轮训练后的新模型是否是最优如果是最优的替换最优模型进入下一轮的self-play阶段。 评估最优的方式同self-play阶段是类似的每一步动作都是还需要通过MCTS策略来进行决策。只不过正反双方分别基于基线模型和更新模型来进行比较。 4. 特征组织形式 状态的维度为其中表示围棋棋盘的二维结构并在第3维叠加黑白双方在过去8步的位置信息另外为了区分当前走子是黑子还是白子增加了一维来标识。 动作的维度为表示在棋盘中下子的位置以及不走子的动作。在实际决策动作时会直接将不合法的动作概率置为0。 5. 模型结构 输入卷积层 残差模块层 policy层 value层
http://www.dnsts.com.cn/news/189101.html

相关文章:

  • 网站代理维护方城微网站建设
  • 萧山网站建设安徽省建设工程资源网
  • 怎么建网站快捷方式网页版百度
  • 浅谈电子商务网站的建设与管理眉山 网站开发
  • 企业网站开发标准学编程哪家培训机构好
  • 河南建设厅网站地址湖南人文科技学院招聘
  • 广告网站留电话不用验证码网站服务器架设
  • 苏州建筑行业网站建设深圳网页设计公司排行
  • 网站死链接wordpress按钮打开外部链接
  • 乡镇信息公开网站建设制度西安米德建站
  • 做网站如何保证询盘数量电商网站的好处
  • 做相框的网站设计之家房屋装修游戏破解版
  • 怎么建设网站赚钱手机杭州哪里找网站建设的兼职
  • 福州天成设计我的企业网站怎么seo
  • 保定网站建设方案学做软件的网站有哪些内容
  • 做盗版电影网站赚钱iis两个网站做ssl
  • wordpress 整站采集高端网站建设企业
  • 移动网站开发面试题网站底色什么颜色好看
  • 嘉兴快速建站模板软件外包网站
  • wordpress是动态国外seo查询
  • 利州区住房和城乡建设部网站竞价网
  • 建网站的经历怎样做网站宣传
  • 网站 文件注入网站内部链接如何进行优化建设
  • 北京网站建设 和君网站主目录权限配置
  • logo商标设计网站兰州起点网站建设公司
  • 在线咨询网站模板长沙网站seo源头厂家
  • 工信部网站原来是软件开发外包服务
  • 网站备案负责人照片著名的国外设计网站
  • 漂亮网站首页 html遵化市城乡建设规划局网站
  • 深圳响应样式网站建设费用网站推广专员的岗位职责是什么