当前位置: 首页 > news >正文

贞丰县建设局网站成都注册公司的流程及手续

贞丰县建设局网站,成都注册公司的流程及手续,代理网店加盟,网站建设中常用的音频格式和视频格式gym版本是0.26.1 CartPole-v1的详细信息#xff0c;点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的#xff0c;这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from …gym版本是0.26.1 CartPole-v1的详细信息点链接里看就行了。 修改了下动手深度强化学习对应的代码。 然后这里 J ( θ ) J(\theta) J(θ)梯度上升更新的公式是用的不严谨的这个和王树森书里讲的严谨公式有点区别。 代码 import gym import torch from torch import nn from torch.nn import functional as F import numpy as np import matplotlib.pyplot as plt from tqdm import tqdm import rl_utils # 这个要下载源码然后放到同个文件目录下,链接在上面给出了 from d2l import torch as d2l # 这个是动手深度学习的库, pip/conda install d2l 就好了class PolicyNet(nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super().__init__()self.fc1 nn.Linear(state_dim, hidden_dim)self.fc2 nn.Linear(hidden_dim, action_dim)def forward(self, X):X F.relu(self.fc1(X))return F.softmax(self.fc2(X),dim1)class REINFORCE:def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma, device):self.policy_net PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.optimizer torch.optim.Adam(self.policy_net.parameters(), lr learning_rate)self.gamma gamma # 折扣因子self.device devicedef take_action(self, state): # 根据动作概率分布随机采样state torch.tensor(np.array([state]),dtypetorch.float).to(self.device)probs self.policy_net(state)action_dist torch.distributions.Categorical(probs)action action_dist.sample()return action.item()def update(self, transition_dict): # 公式用的是简化推导reward_list transition_dict[rewards]state_list transition_dict[states]action_list transition_dict[actions]G 0self.optimizer.zero_grad()for i in reversed(range(len(reward_list))): # 从最后一步算起reward reward_list[i]state torch.tensor(np.array([state_list[i]]), dtypetorch.float).to(self.device)action torch.tensor([action_list[i]]).reshape(-1,1).to(self.device)log_prob torch.log(self.policy_net(state).gather(1, action))G self.gamma * G reward loss -log_prob * G # 因为梯度更新是减的所以取个负号loss.backward()self.optimizer.step() lr 1e-3 num_episodes 1000 hidden_dim 128 gamma 0.98 device d2l.try_gpu()env_nameCartPole-v1 env gym.make(env_name) print(f_max_episode_steps:{env._max_episode_steps}) torch.manual_seed(0) state_dim env.observation_space.shape[0] action_dim env.action_space.nagent REINFORCE(state_dim, hidden_dim, action_dim, lr, gamma, device) return_list [] for i in range(10):with tqdm(totalint(num_episodes/10), descfIteration {i}) as pbar:for i_episode in range(int(num_episodes/10)):episode_return 0transition_dict {states: [], actions: [], next_states: [], rewards: [], dones: []}state env.reset()[0]done, truncated False, Falsewhile not done and not truncated : # 主要是这部分和原始的有点不同action agent.take_action(state)next_state, reward, done, truncated, info env.step(action)transition_dict[states].append(state)transition_dict[actions].append(action)transition_dict[next_states].append(next_state)transition_dict[rewards].append(reward)transition_dict[dones].append(done)state next_stateepisode_return rewardreturn_list.append(episode_return)agent.update(transition_dict)if (i_episode1) % 10 0:pbar.set_postfix({episode: %d % (num_episodes / 10 * i i_episode1), return: %.3f % np.mean(return_list[-10:])})pbar.update(1)episodes_list list(range(len(return_list))) plt.plot(episodes_list, return_list) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()mv_return rl_utils.moving_average(return_list, 9) plt.plot(episodes_list, mv_return) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(fREINFORCE on {env_name}) plt.show()我是在jupyter里直接跑的结果如下所示。
http://www.dnsts.com.cn/news/62752.html

相关文章:

  • 织梦网站上传班级网站制作模板
  • 网站设计中级建设银行网站不主动弹出
  • 网站验收标准wordpress一键搭建脚本
  • 建设一个网站的工作方案网站建设茂名
  • 湖州网站建设服务公司肇庆 网站建设
  • 上海闵行网站制作公司中国平安官方网站心态建设课件
  • 自己做网站处理图片用什么软件下载做一套网站开发多少钱
  • 做仿网站的书管理咨询师
  • 江苏住房和城乡建设网站内丘网站
  • 北京智能网站建设哪里好做网站公司名字应该用图片吗
  • 做网站前端设计需要哪些证书灵川网站制作
  • 静态网站开发软件wordpress admin_init
  • 学校网站建设培训方案招商加盟的网站应该怎么做
  • 网站推广需要多少钱ui网站模板
  • 微信导航网站如何建设微信网站怎么做
  • 网站建设免费的服务器企业网站制作怎么做
  • wordpress中英网站插件外国做足球数据网站
  • 怎么用video做网站开头做个小程序需要花多少钱
  • 免费国外ddos网站网页设计与网站建设课设
  • 企业网站asp模板任何网络项目开始的第一步
  • 襄阳建设路21号创意园网站网站模板 外贸工厂
  • 建设软件网站做网站设计的电话
  • 代刷网可以做网站地图地宝网招聘信息网
  • 网站关键词的作用哪个建站软件比较好带论坛
  • 建设工程施工合同网站网站设计制作规范
  • 电子商务网站建设服务模式论文wordpress图片用阿里云储存
  • 时代强个人网站三亚发布最新消息
  • wordpress仿站容易被收录不wordpress 编辑器 换行
  • 青州网站建设公司创建网站首页时通常取文件名为
  • 优质校建设网站校园网认证登录入口