定义
- 演员(Actor)负责执行策略,也就是表演动作,同时也会根据评论家的信息来调整参数,来更好的“表演”。
- 评论家(Critic)负责评价,同时评论家也会根据演员的决策来更新价值估计,使其更加准确。
- 训练过程中,演员和评论家会相互协作,共同优化策略和价值函数,减少了梯度下降过程中的噪声。
- A2C:Advantage Actor-Critic
- A3C:Asynchronous Advantage Actor-Critic
- 可以单步进行,比策略梯度更快
|
EEWorld Datasheet 技术支持