当前位置: 首页 > news >正文

网站数据库转移网络服务合同侵权问题

网站数据库转移,网络服务合同侵权问题,代做网站毕业设计,装饰公司电话我们前面了解了DQN网络的一些知识#xff0c;然而DQN还有一些改进的方法#xff0c;比如doubleDQN和duelingDQN,我们先来将一下doubleDQN和DQN. 先来对比一下 单一网络 vs. 双重网络 DQN:是一个深度神经网络来估计每个动作的Q值 DDQN:使用两个独立的深度神经网络#xf…我们前面了解了DQN网络的一些知识然而DQN还有一些改进的方法比如doubleDQN和duelingDQN,我们先来将一下doubleDQN和DQN. 先来对比一下 单一网络 vs. 双重网络 DQN:是一个深度神经网络来估计每个动作的Q值 DDQN:使用两个独立的深度神经网络一个用于选择动作一个用于评估动作的价值。这种设计有助于减少Q值的过估计问题。 过估计问题 DQN:由于网络同时负责选择动作和评估动作的价值可能会导致Q值的过估计即Q值被高估这会影响学习稳定性和性能。 DDQN:通过分离选择和评估过程降低了过低的可能性因为目标网络不参与动作选择从而提供一个更稳定的学习目标。 更新机制 DQN:在更新Q值时直接使用当前网络的输出作为目标Q值。 DDQN:在更新Q值时使用目标网络的输出作为Q值而行为网络负责选择动作这种分离有助于提高学习过程的稳定性。 训练稳定性 DQN:由于过估计问题训练过程中可能会遇到稳定性问题尤其是在高维状态空间中。 DDQN:通过使用两个网络通常能够提供更稳定的训练过程因为它减少了Q值的波动。 应用场景 DQN:适用于状态空间不是特别高维或者问题相对简单的情况。 DDQN:更适合于复杂环境特别是在需要更精确估计Q值的情况下如机器人控制、游戏AI等领域。 通俗来讲DDQN就是使用了两个神经网络一个选择动作一个评估动作的价值。 这是DDQN的公式它首先用行为网络选择下一个动作中最大Q值的那个动作然后在用评估动作的网络评估出目标Q值然后更新Q值表。 我们来看一下DDQN的代码我们就看下区别的那部分 多了两个网络。 behavior_net QNetwork(state_dim, action_dim) target_net QNetwork(state_dim, action_dim) 利用行为网络选择动作 def train(episodes):for episode in range(episodes):# 重置环境状态state env.reset()done Falsewhile not done:# 选择动作if random.random() epsilon:action env.action_space.sample() # 随机探索else:action behavior_net(torch.tensor(state, dtypetorch.float32)).max(0)[1].item() # 利用行为网络选择动作# 执行动作观察结果new_state, reward, done, _ env.step(action)# 存储经验experience_replay_buffer.append((state, action, reward, new_state, done))# 移动到下一个状态 计算目标Q值和当前Q值。 # 计算目标 Q 值with torch.no_grad():target_q_values target_net(new_state).max(1)[0] * gamma * (1 - done) reward# 计算当前 Q 值current_q_values behavior_net(no_state).gather(1, action)这些就是和DQN网络的区别其实改动也不是很大。但是很好地解决了Q值过估计的问题。 然后看下duelingDQN 网络结构 DQN:使用一个深度神经网络来近似Q函数网络的输出是每个可能动作的Q值 duelingDQN:在DQN的基础上引入了决斗机制将状态值函数V函数和优势函数A函数分开估计。网络的输出包括状态值和每个动作的优势值。 目标Q值的计算 DQN:可能导致Q值的过估计 duelingDQN:目标Q值计算为 reward gamma * (V(next_state) A(next_state, action) - V(current_state))这里 V(next_state) 是下一个状态的状态值A(next_state, action) 是在下一个状态下采取某个动作的优势值。这种分解可以更稳定地估计Q值。 更新机制 DQN:Q值更新直接依赖于下一个状态的最大Q值这可能导致训练过程中的不稳定性。 duelingDQN:Q值更新考虑了状态值和优势值的差这有助于减少Q值的过估计提高训练的稳定性。 优势函数 DQN:不显式地使用优势函数。 duelingDQN:明确地使用优势函数来表示在给定状态下某个动作相对于其他动作的相对优势。 应用场景 DQN:适用于状态和动作空间不是特别大的问题。 duelingDQN:由于其更稳定的Q值估计Dueling DQN在处理高维状态空间和动作空间的问题时表现更好。 我们来看下duelingDQN区别的代码 创建值函数网络和优势函数网络 self.V nn.Linear(128, 1) # Value stream self.A nn.Linear(128, n_actions) # Advantage stream 前向传播时将优势函数减去其均值以稳定训练。 def forward(self, x):# ...return V (A - A.mean(dim1, keepdimTrue)) # Q V (A - mean(A)) 总结Dueling DQN算法的关键创新在于将状态值和优势分开估计并通过减去优势函数的均值来计算Q值这与传统DQN算法中直接输出每个动作的Q值是不同的。这种结构有助于提高学习效率和性能尤其是在具有不同价值状态的情况下。
http://www.dnsts.com.cn/news/195478.html

相关文章:

  • 九江做网站开发需要多少钱无锡设计
  • 查询网站注册信息网络营销的六大功能
  • 爱的网站歌曲搜索引擎网站建设公司
  • 推广服务商是什么意思seo关键词排名优化品牌
  • 织梦网站模板免费下载2022年ppt模板下载
  • 网站式小程序自己做视频网站有点卡
  • 中国互联网协会网站seo网站项目讲解
  • 网站 推送西安火车站建设
  • 分类信息网站开发建国际网站需要多少钱
  • 哈尔滨网站建设公司合肥建设网站制作哪个好
  • 给网站定位怎么防止网站被镜像
  • 建立网站的英文兰州网站seo费用
  • 杭州门户网站有哪些高端网站制作上海站霸科技
  • 如何做积分商城网站兰州企业网站
  • 龙岗企业网站设计公司做网站公司郑州郑州的网站建设公司排名
  • 2022年网站能用的动画设计技校
  • 网站域名ip地址查询网站中了木马了怎么办
  • 东莞网站seo优化托管餐饮公司网站建设
  • 手机网站设计建设2003年前深圳注册公司有什么要求
  • 网站制作邯郸网站开发工程师岗位说明书
  • 网站制作的流程有哪些WordPress文章ajax
  • 上海网站seoseodian高端网页开发平台
  • 知乎 上海做网站的公司天天向上 网站建设
  • 网站备案邮寄资料低价网站建设推广报价
  • 网站建设找哪一家比较好求个2022手机能看的
  • 百度网盘 做网站图床温州网上商城网站建设
  • 网站文件验证建设一个货架网站
  • 个人网站的首页wordpress怎么清空所有内容
  • 电子商务网站怎么建织梦 旅游网站模板
  • 西部数据网站管理助手v3.0网站推广流程