演员评论家算法是前两章的价值算法和策略梯度法则的两者结合。
多进程和多线程
操作系统软件将物理CPU处理器抽象成虚拟的进程和线程。进程包含自己的内存空间,而线程运行于单个进程中。并行计算包含两种形式:多线程和多进程。只有在后一种形式中计算才能真正同时执行。在多进程中,计算同时执行于多个物理上不同的处理单元,例如CPU或GPU。
小结:
- learning学习预测给定状态和动作下的贴现奖励。
策略算法学习给定状态下动作的概率分布。
演员-评论家算法学习通过比较动作的期望值与实际观察到的奖励来计算优势,所以如果一个动作预期导致-1奖励但实际上导致+10奖励,那么它的优势则比预期导致+9奖励而实际上导致+10动作要高。
多进程是指在多个不同的处理器上运行代码,这些处理器可以同时独立运行。
多线程就像多任务处理,通过让操作系统在多个任务之间快速切换来实现更快运行多个任务。当一个任务空闲时(可能等待一个文件下载),操作系统可以继续处理另一个任务。
分布式训练通过同时运行环境的多个实例和一个共享的深度强化学习模型实例来工作。在每个时间步后,计算每个独立模型的损失,收集每个模型副本的梯度,然后患难夫妻它们求和或求平均来更新共享参数,从而可以在没有经验回放缓冲器的情况下进行小批量训练。
|