当前位置: 首页 > news >正文

米卓网站建设二十个优化

米卓网站建设,二十个优化,wordpress 多个网址,高端网站开发找苏州觉世品牌一、说明 最近 OpenAI 上关于 Q-star 的热议激起了我温习强化学习知识的兴趣。这是为强化学习 (RL) 新手提供的复习内容。 二、强化学习的定义 强化学习是人类和其他动物用来学习的学习类型。即#xff0c;通过阅读房间来学习。#xff08;从反馈中学习#xff09;。让我解…一、说明 最近 OpenAI 上关于 Q-star 的热议激起了我温习强化学习知识的兴趣。这是为强化学习 (RL) 新手提供的复习内容。 二、强化学习的定义 强化学习是人类和其他动物用来学习的学习类型。即通过阅读房间来学习。从反馈中学习。让我解释。 作为一个幼儿你正在积极地探索你的环境在这个探索过程中你采取一些行动例如你尝试站起来你尝试爬行行走接触火吞下泥土在那个年龄我们尝试吞下一切。我们微笑并做出可爱的鬼脸这给我们带来了父母的拥抱和微笑的回报。我们可能会大喊大叫、发脾气这会让我们的父母生气甚至会导致我们暂停、延迟玩游戏。因此我们通过我们的行动收到的反馈来学习。这就是你教你的狗行为举止的方式。通过奖励来强化其良好行为并通过“Nooooo”来阻止不良行为。 来源 https: //www.wikihow.com/Teach-Your-Dog-to-Speak 强化学习 (RL) 是机器学习 (ML) 的一种涉及从环境收到的反馈进行学习而不是从标记数据如监督学习或数据的固有属性如无监督学习中学习。 三、强化学习框架 强化学习框架涉及多个方面。让我们一一看看 强化学习框架的重要元素来源强化学习简介Richard Sutton 和 Andrew G. Barto 代理人——行动者或决策者 在强化学习中学习者被称为“代理”。代理可以是一个软件也可以是软件和硬件的组合例如机器人。学习任务中可能有一个或多个代理。 环境——周围环境或代理人的世界 代理驻留在“环境”中并在其中导航。“环境”是指与代理交互的外部系统或周围环境。 来源抱脸深度强化学习课程 环境状况 在任何时候代理都可以查看完整的配置或其环境的状态。例如游戏特定阶段的完整棋盘的快照。 在某些强化学习任务中代理无法看到其环境的整个配置只能看到其中的一部分例如在超级马里奥游戏中代理即玩家无法看到整个环境只能看到其中的一部分在特定时间。在这种情况下我们说智能体看到了来自环境的观察结果。 报酬 奖励是智能体在采取行动后从环境收到的反馈。奖励是一个数字。代理的目标是积累最大的累积奖励。 价值 价值是智能体从处于特定环境状态并采取特定行动时获得的累积长期奖励。因此强化学习代理的目标是最大化其价值。 折扣未来奖励 对于我们人类来说有即时的满足感也有长期的价值。同样对于 RL 代理来说它在环境状态下采取行动后会立即收到奖励。并且它期望通过未来采取的行动获得累积的未来奖励其行动的长期后果业力你看。 RL 中的折扣因子Gamma , γ平衡即时奖励与未来奖励。它通过确定未来奖励的权重来帮助智能体决定在任何状态下采取哪些行动。 状态转移概率 状态转换概率是当智能体采取特定动作时从环境的一种状态转移到另一种状态的概率。在这里我们需要谈谈强化学习中的确定性和随机环境。 确定性环境是指代理在特定状态下只能采取一个预先确定的操作并且该操作会将您引导到预先确定的下一个状态。例如如果你当前的状态是你在学校那么唯一可能的行动就是学习。 随机环境是代理可以选择采取多种可能行动之一的环境。每个动作都有一个代理执行的相关概率。例如你在学校你有 90% 的概率可以学习你有 5% 的概率可以做运动你有 5% 的概率可以和朋友聊天。在随机环境中状态之间的转换存在不确定性或随机性。 表示为P ( s ∣ s , a ) 的状态转换概率是在智能体当前处于状态s并采取动作a 的情况下转换到状态 s 的概率。该概率函数捕获特定 RL 任务中代理环境的动态。 马尔可夫性质 在强化学习中我们假设状态表现出马尔可夫性质。马尔可夫性质意味着系统的未来状态仅取决于当前状态和操作而不取决于之前的事件顺序。这使得对状态转换建模变得更加容易。 状态值函数 (V(s)) 状态价值函数V ( s ) 计算代理可以从给定状态s并采取后续行动中获得的预期累积奖励回报或价值。即它衡量代理的状态价值。 动作值函数 (Q(s, a)) 动作价值函数Q ( s , a ) 计算智能体从处于状态s、采取动作a然后遵循特定的动作序列策略可以获得的预期累积奖励回报或价值 。它衡量在给定状态下采取特定行动的质量。 价值函数和行动价值函数帮助智能体决定进入什么状态以及采取什么行动来最大化其整体奖励。 四、笔记  成功的代理人是实现其目标的代理人。代理的目标是最大化其长期奖励价值/回报。为了实现其目标智能体需要学习在其环境中的每个连续状态下采取最佳行动一系列最佳/最佳行动。最佳的行动序列是最大化累积奖励的行动序列。因此RL 的重点是让智能体了解每一步要采取什么行动来实现其目标。关于每一步要采取什么行动的知识称为策略。 政策 策略π定义了代理用来决定在不同状态下采取哪些操作的策略或规则。它本质上是从状态到动作的映射。有两种类型的政策 确定性策略 ( π ( s )→ a )在确定性策略中对于每个状态该策略精确指定要采取的一个操作。随机策略 ( π ( a ∣ s ))在随机策略中对于每个状态该策略定义了许多可能操作的概率分布。 状态价值函数和行动价值函数经常用于 Q-learning 和 SARSA 等算法中而策略在 RL 中的策略梯度方法和行动者批评方法中发挥着核心作用。 代理必须在其环境中学习自身的最优策略。即它需要学习在不同环境状态下的多个时间步长采取的最佳行动顺序。 “学习”是指学习如何就在环境中采取什么行动做出正确的决策顺序。这种学习是通过从环境收到的反馈与环境交互来实现的。 从命中和尝试开始智能体采取行动如果行动好智能体会收到奖励形式的反馈如果行动不好智能体会受到环境的惩罚。代理的目标是最大化其累积奖励。这很像一个幼儿通过跌倒和爬起来来学习走路。或者一只狗从父母的对待或责骂中学习表现良好。 其中心思想是让代理探索其环境从其行为的后果中学习并调整其行为以实现特定目标。 因此代理可以从随机策略开始随机采取任何可能的动作然后根据获得的奖励的比较下次调整其策略。迭代细化一直持续到智能体学会了最佳的动作序列从而在其环境中获得最大的奖励。政策优化。 解决强化学习问题的两种方法是基于策略的方法和基于价值的方法。 在基于策略的方法中代理学习针对每种环境状态的一组可能操作的概率分布。在基于价值的方法中代理学习一个价值函数该函数将状态映射到该状态的期望值然后根据贪婪策略采取行动进入最高价值的状态。 政策迭代 策略迭代是一种用于寻找最优策略的迭代方法。关键思想是交替执行两个步骤政策评估和政策改进。 政策评估 在策略评估步骤中评估当前策略以估计其值Vπ即当前策略下每个状态的预期回报。此步骤涉及迭代更新状态值直到它们收敛到准确表示当前政策下每个状态的预期回报的稳定值。 政策改进 在策略改进步骤中策略被更新为相对于当前价值函数更加贪婪。考虑到在策略评估步骤中获得的估计值选择每个状态的操作以最大化预期回报。然后将更新后的策略用于下一轮策略评估并重复该过程。 策略迭代将持续进行直到策略在策略改进步骤中不再发生变化。至此国家价值观和政策已经收敛到最优值。 五、基于模型和无模型的强化学习 有两种不同的方法来学习代理的最佳策略具体取决于代理是否具有环境模型。 基于模型的强化学习 在基于模型的强化学习中代理构建环境的内部模型马尔可夫决策过程MDP。该模型包括有关环境中可用状态、代理可能采取的操作、状态转换概率、奖励函数、未来奖励的折扣因子的信息。代理使用其学习的模型来模拟未来可能的场景并根据这些模拟来计划其行动。代理通过根据其内部模型选择预计会产生有利结果的行动来做出决策。模型中的不准确可能会导致性能不佳。 无模型强化学习 在无模型强化学习中代理直接与环境交互无需显式构建模型。代理不是学习环境的动态而是通过反复试验来学习策略策略或价值函数预期累积奖励。 无模型强化学习的关键步骤包括 探索智能体通过采取行动来探索环境并观察结果。策略或价值函数学习代理学习将行为与期望的结果关联起来而无需显式地对环境进行建模。这可能涉及 Q 学习、SARSA 或策略梯度方法等技术。适应代理根据观察到的奖励调整其策略不断改进其决策。 无模型强化学习在处理复杂和未知的环境方面更加灵活但可能需要更多的探索才能发现有效的策略。 这些方法之间的选择通常取决于问题的特征以及环境的准确模型的可用性。 时间差分学习TD Learning 时间差分TD学习用于训练智能体在动态环境中做出决策。它是一种无模型强化学习代理可以从其经验中学习而不需要环境模型。TD 学习涉及根据未来奖励的预测值和观察值之间的差异来更新价值估计。 预测值是学习算法对某些状态或状态-动作对估计的值 Vs或Qsa 。真正的价值是通过与环境的相互作用获得的。在某个状态采取行动后代理会收到奖励并转换到新状态。观察到的奖励和结果状态构成了真实值。学习算法通过将预测与实际结果进行比较来调整其预测旨在随着时间的推移减少差异并改进决策。 时间差异误差是预测值与真实值之间的差异用于迭代更新预测值。更新基于当前时间步的预测值与观察到的奖励和下一时间步的预测值的组合之间的差异。 例如在 TD(0) 学习中状态值函数V ( st ​) 的更新公式可能如下所示V ( st ​)← V ( st ​) α [ Rt 1​ γV ( st 1​)− V ( st ​)] 这里α是学习率Rt 1​是观察到的奖励γ是折扣因子V ( st 1​) 是下一个状态的预测值。 六、Q-学习 Q-learning 是一种无模型 RL 算法用于为给定的有限马尔可夫决策过程 (MDP) 寻找最优策略为智能体提供最大奖励的策略。Q-learning 首先估计在特定状态下采取特定行动的质量并根据观察到的奖励更新这些估计。该算法是离策略的这意味着它在遵循另一个探索性策略的同时学习单独的策略Q 函数。 Q-learning的更新规则为 Q ( s , a )← Q ( s , a ) α [ R  γ max a ​Q ( s ′, a )− Q ( s , a )] 这里Q ( s , a ) 是在状态s下采取动作a的估计质量R是观察到的奖励γ是折扣因子s  是下一个状态α是学习率。 深度 Q 学习深度 Q 网络 (DQN) 深度 Q 网络将 Q 学习与深度神经网络深度 Q 学习相结合使算法能够处理具有大量状态的 RL 环境例如图像。DQN 使用神经网络来近似 Q 函数。DQN 使用经验重放其中过去的经验存储在重放缓冲区中并在训练期间随机采样以打破数据中的相关性。 DQN中的损失函数定义为 损失E[( Q ( s , a )−( R  γ max a ′​ Q ( s ′, a ′)))2] 网络经过训练可以通过调整其参数来最小化这种损失。 Q*Q 星 Q*旨在找到最优动作价值函数Q*(s, a)它表示在状态“s”下采取动作“a”然后遵循最优策略可以获得的最大预期累积奖励。 SARSA状态-行动-奖励-行动-状态 SARSA 是另一种无模型强化学习算法。与 Q-learning 不同SARSA 是一种在策略算法这意味着它可以学习当前正在使用的策略的价值。 SARSA的更新规则是 Q ( s , a )← Q ( s , a ) α [ R  γQ ( s  , a  )− Q ( s , a )] 这里Q ( s , a ) 是在状态s下采取动作a的估计质量R是观察到的奖励s  是下一个状态a  是下一个动作γ是折扣因子α是学习率。 策略梯度法 策略梯度方法是一类直接学习策略的强化学习算法。与旨在估计价值函数状态值或行动值的基于价值的方法不同策略梯度方法直接参数化策略并更新其参数以最大化预期累积奖励。 在策略梯度方法中策略由一组由神经网络表示的可学习参数参数化。该策略将状态作为输入并输出动作的概率分布。随着时间的推移对参数进行调整以提高策略的性能。 目标函数是需要最大化的奖励总和的期望值。 计算相对于策略参数的预期累积奖励的梯度。该梯度用于更新策略参数以增加导致更高奖励的行动的可能性。策略优化是通过梯度上升来执行的即更新策略参数以朝着增加预期回报的配置移动。 为了防止过早收敛到次优策略并鼓励探索更多样化的行动空间在目标函数中添加了与策略分布的负熵成比例的项。它被称为熵正则化。 REINFORCE算法是一种经典的策略梯度方法它使用似然比技巧来估计预期回报的梯度。它按照梯度乘以与观察到的奖励相关的因子的比例更新策略参数。 演员批评家方法 Actor-Critic 方法结合了策略梯度和基于价值的方法的元素。这些算法有一个演员它学习选择动作的策略还有一个批评家它评估这些动作或状态的价值。该行为者利用批评者的评估来指导其政策更新旨在随着时间的推移改进决策。 Actor-Critic 方法的优点是观察到的回报实际累积奖励与批评者估计的值之间的差异。 Actor-Critic方法中的目标函数是Actor的策略梯度和Critic的价值函数的组合。更新参与者以最大化预期累积奖励更新批评者以最小化其估计与观察到的回报之间的均方误差。Actor 使用策略梯度方法进行更新例如 REINFORCE。更新与参与者参数的预期回报梯度成正比并按优势缩放。批评者使用时间差TD学习进行更新。 七、强化学习的应用 强化学习的概念可以应用于解决游戏、机器人和自动化等各个领域的问题从而提高 ChatGPT 等大型语言模型的性能。 有一些特定的框架和算法用于实现和训练 RL 模型例如 Q 学习、深度 Q 网络 (DQN)、策略梯度方法等。这些算法提供了计算机制使代理能够从经验中学习并提高决策能力。 这是对强化学习的过于简单化的介绍。强化学习有着巨大的应用。请查看参考资料中的详细学习资料。 强化学习简介Richard Sutton 和 Andrew G BartoSutton Barto Book: Reinforcement Learning: AnIntroductionDavid Sliver 的强化学习课程Teaching - David Silver斯坦福大学强化学习课程 https: //web.stanford.edu/class/cs234/深度 RL 拥抱脸部课程https://huggingface.co/learn/deep-rl-course/unit0/introductionDeep Deterministic Policy Gradient — Spinning Up documentation
http://www.dnsts.com.cn/news/61151.html

相关文章:

  • 网站群建设代理我为什么不建议年轻人做运营
  • 山东网站开发网络公司生活信息网站如何推广
  • 淮南做网站推广asp.net 大网站
  • 河北网站建设与制作北京网站建设推广服务信息
  • 南京建设局网站开发网站的工具有哪些
  • 自学编程网站遵义建一个网站大概要多少钱
  • 智云鸟网站建设官方网站下载6966
  • 建设直播网站需要哪些许可证网站建设策划模板
  • 空间链接制作网站淮安哪里有做网站的
  • ps里面怎么做网站对联广告centos 7 安装wordpress
  • 建立淘宝客网站用什么软件做网站最好
  • 成都建设局网站网站建设毕业设计模板
  • 网站建设的目的和目标在线代码编辑器
  • 旅游社做的最好的网站南宁设计网站
  • 怎样在网站上做链接精通网站建设pdf下载
  • 网站建设需要什么软件有哪些网站下拉菜单设计
  • 网站建设实训室介绍wordpress 输出json
  • 南通网站建ui培训哪里好
  • 域名同时做邮箱和网站微网站如何建设方案
  • 西安seo网站设计公司对外贸易平台有哪些
  • 哪个网站的域名到期直接注册如何提高网站设计能力
  • 前端网站页面模板做高端网站公司
  • 襄阳网站排名优化江苏建设工程信息网网
  • 商业网站有什么作用如何在网上建设一个公司网站
  • 临沂做网站电话手机百度网址是什么
  • 2017网站建设报价表网站怎么去优化
  • 介绍自己做的网站的论文python3的网站开发
  • 网站后台公告id修改软件开发公司
  • 买一个成品网站多少钱深圳华南城网站建设
  • 临汾做网站公司哪家好凡客诚品正品官网