网站排行查询,网站dns如何修改不了,投标网站怎么做,制作网站建网站强化学习核心概念与公式总结
1. 核心概念
1.1 智能体(Agent)和环境(Environment) 智能体:学习和做决策的实体环境:智能体交互的外部系统1.2 状态(State) 描述环境在特定时刻的情况1.3 动作(Action) 智能体可以执行的操作1.4 奖励(Reward) 环境对智能体动作的即时反馈1.5 策…强化学习核心概念与公式总结
1. 核心概念
1.1 智能体(Agent)和环境(Environment)
智能体:学习和做决策的实体环境:智能体交互的外部系统1.2 状态(State)
描述环境在特定时刻的情况1.3 动作(Action)
智能体可以执行的操作1.4 奖励(Reward)
环境对智能体动作的即时反馈1.5 策略(Policy)
定义智能体在给定状态下应采取的动作1.6 价值函数(Value Function)
评估状态或动作的长期价值1.7 Q函数(Q-function)
特殊的价值函数,评估状态-动作对的价值1.8 探索与利用(Exploration vs Exploitation)
在尝试新动作和利用已知好动作之间取得平衡1.9 回合(Episode)
从初始状态到终止状态的完整交互序列1.10 折扣因子(Discount Factor)
决定未来奖励的重要性2. 关键公式
2.1 策略(Policy)
确定性策略 a = π ( s ) a = \pi(s) a=π(s)
随机策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(a∣s)=P(At=a∣St=s)
2.2 价值函数(Value Function)
状态价值函数 V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[k=0∑∞γkRt+k+1∣St=s]
动作价值函数(Q函数) Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ