730|1

1万

帖子

16

TA的资源

版主

楼主
 

《深度强化学习实战》第五章读书摘要 [复制链接]

演员评论家算法是前两章的价值算法和策略梯度法则的两者结合。

 

 

多进程和多线程

操作系统软件将物理CPU处理器抽象成虚拟的进程和线程。进程包含自己的内存空间,而线程运行于单个进程中。并行计算包含两种形式:多线程和多进程。只有在后一种形式中计算才能真正同时执行。在多进程中,计算同时执行于多个物理上不同的处理单元,例如CPU或GPU。

 

小结:

  1. learning学习预测给定状态和动作下的贴现奖励。

策略算法学习给定状态下动作的概率分布。

演员-评论家算法学习通过比较动作的期望值与实际观察到的奖励来计算优势,所以如果一个动作预期导致-1奖励但实际上导致+10奖励,那么它的优势则比预期导致+9奖励而实际上导致+10动作要高。

多进程是指在多个不同的处理器上运行代码,这些处理器可以同时独立运行。

多线程就像多任务处理,通过让操作系统在多个任务之间快速切换来实现更快运行多个任务。当一个任务空闲时(可能等待一个文件下载),操作系统可以继续处理另一个任务。

分布式训练通过同时运行环境的多个实例和一个共享的深度强化学习模型实例来工作。在每个时间步后,计算每个独立模型的损失,收集每个模型副本的梯度,然后患难夫妻它们求和或求平均来更新共享参数,从而可以在没有经验回放缓冲器的情况下进行小批量训练。

 

最新回复

支持楼主的坚持,为楼主的无私奉献点赞,希望楼主继续加油   详情 回复 发表于 2023-11-8 09:00
点赞 关注
个人签名http://shop34182318.taobao.com/
https://shop436095304.taobao.com/?spm=a230r.7195193.1997079397.37.69fe60dfT705yr

回复
举报

755

帖子

5

TA的资源

纯净的硅(高级)

沙发
 

支持楼主的坚持,为楼主的无私奉献点赞,希望楼主继续加油

 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/6 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表