当前位置: 首页 > news >正文

永久建站平台在网上怎么赚钱?

永久建站平台,在网上怎么赚钱?,建筑工程网点代表什么,搭建网站程序文章目录 概览#xff1a;RL方法分类蒙特卡洛方法#xff08;Monte Carlo#xff0c;MC#xff09;MC BasicMC Exploring Starts#x1f7e6;MC ε-Greedy 本系列文章介绍强化学习基础知识与经典算法原理#xff0c;大部分内容来自西湖大学赵世钰老师的强化学习的数学原理… 文章目录 概览RL方法分类蒙特卡洛方法Monte CarloMCMC BasicMC Exploring StartsMC ε-Greedy 本系列文章介绍强化学习基础知识与经典算法原理大部分内容来自西湖大学赵世钰老师的强化学习的数学原理课程参考资料1并参考了部分参考资料2、3的内容进行补充。 系列博文索引 强化学习的数学原理学习笔记 - RL基础知识强化学习的数学原理学习笔记 - 基于模型Model-based强化学习的数学原理学习笔记 - 蒙特卡洛方法Monte Carlo强化学习的数学原理学习笔记 - 时序差分学习Temporal Difference强化学习的数学原理学习笔记 - 值函数近似Value Function Approximation强化学习的数学原理学习笔记 - 策略梯度Policy Gradient强化学习的数学原理学习笔记 - Actor-Critic 参考资料 【强化学习的数学原理】课程从零开始到透彻理解完结主要Sutton Barto Book: Reinforcement Learning: An Introduction机器学习笔记 *注【】内文字为个人想法不一定准确 概览RL方法分类 *图源https://zhuanlan.zhihu.com/p/36494307 蒙特卡洛方法Monte CarloMC 求解RL问题要么需要模型要么需要数据。之前介绍了基于模型model-based的方法。然而在实际场景中环境的模型如状态转移函数往往是未知的这就需要用无模型model-free方法解决问题。 无模型的方法可以分为两大类蒙特卡洛方法Monte CarloMC和时序差分学习Temporal DifferenceTD。本文介绍蒙特卡洛方法。 蒙特卡洛思想通过大数据量的样本采样来进行估计【本质上是大数定律的应用基于独立同分布采样】将策略迭代中依赖于model的部分替换为model-free。 MC的核心idea并非直接求解 q π ( s , a ) q_{\pi} (s, a) qπ​(s,a)的准确值而是基于数据sample / experience来估计 q π ( s , a ) q_{\pi} (s, a) qπ​(s,a)的值。MC直接通过动作值的定义进行均值估计即 q π ( s , a ) E π [ G t ∣ S t s , A t a ] ≈ 1 N ∑ i 1 N g ( i ) ( s , a ) q_{\pi}(s, a) \mathbb{E}_\pi [ G_t | S_t s, A_t a ] \approx \frac{1}{N} \sum^N_{i1} g^{(i)} (s, a) qπ​(s,a)Eπ​[Gt​∣St​s,At​a]≈N1​i1∑N​g(i)(s,a) 其中 g ( i ) ( s , a ) g^{(i)} (s, a) g(i)(s,a)表示对于 G t G_t Gt​的第 i i i个采样。 MC Basic 算法步骤在第 k k k次迭代中给定策略 π k \pi_k πk​随机初始策略 π 0 \pi_0 π0​ 策略评估对每个状态-动作对 ( s , a ) (s, a) (s,a)运行无穷或足够多次episode估算 q π k ( s , a ) q_{\pi_{k}} (s, a) qπk​​(s,a)策略提升基于估算的 q π k ( s , a ) q_{\pi_{k}} (s, a) qπk​​(s,a)求解迭代策略 π k 1 ( s ) arg max ⁡ π ∑ a π ( a ∣ s ) q π k ( s , a ) \pi_{k1}(s) \argmax_\pi \sum_a \pi(a|s) q_{\pi_{k}}(s, a) πk1​(s)argmaxπ​∑a​π(a∣s)qπk​​(s,a) MC Basic与策略迭代的区别在第 k k k次迭代中 策略迭代使用迭代方法求出状态值 v π k v_{\pi_k} vπk​​并基于状态值求出动作值 q π k ( s , a ) q_{\pi_k} (s, a) qπk​​(s,a)MC Basic直接基于采样/经验均值估计 q π k ( s , a ) q_{\pi_k} (s, a) qπk​​(s,a)不需要估计状态值 *MC Basic只是用来说明MC的核心idea并不会在实际中应用因为其非常低效。 MC Exploring Starts 思想提升MC Basic的效率 利用数据对于一个轨迹从后往前利用 ( s , a ) (s, a) (s,a)状态-动作对采样做估计 例如对于轨迹 s 1 → a 2 s 2 → a 4 s 1 → a 2 s 2 → a 3 s 5 → a 1 ⋯ s_1 \xrightarrow{a_2} s_2 \xrightarrow{a_4} s_1 \xrightarrow{a_2} s_2 \xrightarrow{a_3} s_5 \xrightarrow{a_1} \cdots s1​a2​ ​s2​a4​ ​s1​a2​ ​s2​a3​ ​s5​a1​ ​⋯从后往前采样即先估计 q π ( s 5 , a 1 ) q_\pi(s_5, a_1) qπ​(s5​,a1​)再估计 q π ( s 2 , a 3 ) R t 4 γ q π ( s 5 , a 1 ) q_\pi(s_2, a_3) R_{t4} \gamma q_\pi(s_5, a_1) qπ​(s2​,a3​)Rt4​γqπ​(s5​,a1​)进而估计 q π ( s 1 , a 2 ) R t 3 γ q π ( s 2 , a 3 ) q_\pi(s_1, a_2) R_{t3} \gamma q_\pi(s_2, a_3) qπ​(s1​,a2​)Rt3​γqπ​(s2​,a3​)以此类推 更新策略不必等待所有episode的数据收集完毕直接基于单个episode进行估计类似于截断策略迭代单次估计不准确但快 这是通用策略迭代Generalized Policy IterationGPI的思想 MC Exploring Starts Exploring探索每个 ( s , a ) (s, a) (s,a)状态-动作对Starts从每个状态-动作对开始一个episode 与Visit对应从其他的状态-动作对开始一个episode但其轨迹能经过当前的状态-动作对 MC ε-Greedy Exploring Starts在实际中难以实现考虑引入soft policy随机stochastic选择动作 ε-Greedy策略 π ( a ∣ s ) { 1 − ε ∣ A ( s ) ∣ ( ∣ A ( s ) ∣ − 1 ) , for the greedy action,  ε ∣ A ( s ) ∣ , for other  ∣ A ( s ) ∣ − 1 actions. \pi(a|s) \begin{cases} 1-\frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)|-1), \text{for the greedy action, } \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, \text{for other } |\mathcal{A}(s)|-1 \text{ actions.} \end{cases} π(a∣s){1−∣A(s)∣ε​(∣A(s)∣−1),∣A(s)∣ε​,​for the greedy action, for other ∣A(s)∣−1 actions.​ 其中 ε ∈ [ 0 , 1 ] \varepsilon \in [0,1] ε∈[0,1] ∣ A ( s ) ∣ |\mathcal{A}(s)| ∣A(s)∣表示状态 s s s下的动作数量。 直观理解以较高概率选择贪心动作greedy action以较低均等概率选择其他动作特性选择贪心动作的概率永远不低于选择其他动作的概率目的平衡exploitation探索和exploration利用 ε 0 \varepsilon 0 ε0侧重于利用永远选择贪心动作 ε 1 \varepsilon 1 ε1侧重于探索以均等概率选择所有动作均匀分布 MC ε-Greedy在策略提升阶段求解下式 π k 1 ( s ) arg max ⁡ π ∈ Π ε ∑ a π ( a ∣ s ) q π k ( s , a ) \pi_{k1}(s) \argmax_{\color{red}\pi \in \Pi_\varepsilon} \sum_a \pi(a|s) q_{\pi_{k}}(s, a) πk1​(s)π∈Πε​argmax​a∑​π(a∣s)qπk​​(s,a) 其中 π ∈ Π ε \pi \in \Pi_\varepsilon π∈Πε​表示所有ε-Greedy策略的集合。得到的最优策略为 π k 1 ( a ∣ s ) { 1 − ε ∣ A ( s ) ∣ ( ∣ A ( s ) ∣ − 1 ) , a a k ∗ , ε ∣ A ( s ) ∣ , a ≠ a k ∗ . \pi_{k1}(a|s) \begin{cases} 1-\frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)|-1), a a_k^*, \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, a \neq a_k^*. \end{cases} πk1​(a∣s){1−∣A(s)∣ε​(∣A(s)∣−1),∣A(s)∣ε​,​aak∗​,aak∗​.​ MC ε-Greedy与MC Basic和MC Exploring Starts的区别 后二者求解的范围是 π ∈ Π \pi \in \Pi π∈Π即所有策略的集合后二者得到的是确定性策略前者得到的是随机策略 MC ε-Greedy与MC Exploring Starts的唯一区别在于ε-Greedy策略因此MC ε-Greedy不需要Exploring Starts。 MC ε-Greedy通过探索性牺牲了最优性但可以通过设置一个较小的ε如0.1进行平衡 在实际中可以为ε设置一个较大的初始值随着迭代轮数逐渐减小其取值ε的值越大最终策略的最优性越差 最终训练得到的策略可以去掉ε直接使用greedy的确定性策略consistent。
http://www.dnsts.com.cn/news/124489.html

相关文章:

  • 百度站长工具排名工厂办公室简单装修
  • 做算法题的 网站网页制作与设计实验报告
  • 网站为什么要备案东莞网站建设营销服务平台
  • 网站制作网页版南宁网站建设建站系统
  • 网站最佳颜色搭配游戏网站建设的策划书
  • 做的网站怎样更新app拉新推广平台代理
  • 网站后台 用什么编写广西北海市住房和建设厅网站
  • 做一元购网站 要多少钱龙华做棋牌网站建设多少钱
  • 英文医疗网站建设dw和mysql做网站
  • 做冲压件加工有什么好网站建设网站带后台管理
  • 漳州城乡住房建设部网站运城网站推广
  • jsp做网站毕业设计婚庆公司网站php源码
  • 盐城网站建设官网先网站开发后软件开发
  • 在阿里云网站建设class wp wordpress
  • 保定网站建设冀icp备中国建设银行互联网站
  • 网站模板d一品资源网千万别在百度上搜别人的名字
  • 手机做wifi中继上外国网站网站子页怎么做 视频
  • 免费网站建设排行wordpress替换dede
  • php网站开发软件编程上海进出口贸易博览会
  • linux系统网站空间页面模板不包括
  • 网站建设脑图博客网站入口
  • 哪个网站可以找到毕业设计ui设计好学吗?要学多久
  • 诸城网站建设与制作wordpress 数据导入
  • 做网站的软件叫code国土资源和建设部网站
  • 网站建设任务分解开发直播app赚钱吗
  • 快速搭建网站的方法邓海舟网站建设教程
  • 3d做ppt模板下载网站广西桂林理工大学
  • 淘客cms建站域名 a记录 手机网站
  • 做视频网站需要哪些技术排名优化是什么意思
  • 住房住房和城乡建设部网站平面设计优秀作品解析