《深度强化学习实战》第三章:预测最佳状态和动作:深度Q网络
[复制链接]
第三章:预测最佳状态和动作:深度Q网络
3.1 Q函数
状态:智能体收到的用于决定采取什么动作的信息。
策略:智能体在收到一个状态时所遵循的对策。
奖励:智能体在采取选择后得到的反馈,并会产生一个新的状态。
价值函数:
即,
π:策略
s:状态
ω:赋予奖励的权重
r:奖励
3.2 Q-Learning
Q-Learning主要思想:预测一个状态-动作所对应的值,将该预测值与动作后观察到的累积奖励进行比较并更新算法的参数,以便下次做出更好的预测。
Q-Learning函数:
:更新后的Q值
:当前的Q值
a:步长大小,学习率
ϒ:贴现因子,决定奖励值的贴现程度,且值应处于(0,1)区间内
:所有动作的最大Q值
|