920|0

157

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《深度强化学习实战》阅读心得2 [复制链接]

深度强化学习

第六章、进化算法

6.1、另一种强化算法--进化算法

进化算法不需要单个智能体去学习,不依赖于梯度下降,称为无梯度算法。

 

6.2、进化算法理论

进化强化学习的目标与基于反向传播和梯度下降的训练完全相同,区别是使用这个进化过程来优化模型,也就是使用遗传算法优化神经网络模型。

6.3、进化实践

代码执行逻辑

6.4、CartPole遗传算法

代码执行逻辑

6.5、进化算法优点

进化算法(无梯度算法)的优势,他们会比基于梯度算法探索的更多

6.6、进化算法扩展性

进化算法的模型设计,可以实现并行运行,甚至可以在多台电脑下运行,从而加快了训练的过程

代码执行逻辑

第七章、Dist-DQN获取

7.1、频率论和贝叶斯论对比

贝叶斯决策(Bayesian Decision Theory)就是在不完全信息下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。

7.2、贝尔曼方程

贝尔曼方程是动态规划这些数学最佳化方法能够达到最佳化的必要条件

7.3、分布式Q-learning

Q-learning是基于决策过程的强化学习算法,可以自动学习最优决策

7.4、比较概率分布

7.5、Dist-DQN模拟数据训练

7.6、Dist-DQN算法玩雅达利游戏

第八章、好奇心驱动的探索

8.1、利用预测编码处理稀疏奖励

8.2、反向动态预测

8.3、搭建《超级马里奥兄弟》环境

正向模型、反向模型和编码器模型共同构成了内在好奇心模块。

8.4、预处理和Q网络

8.5、创建Q网络和策略函数

8.6、内在好奇心模块

好奇心模块由:正向模型、反向模型和编码器模型

8.7、可替代的内在奖励机制

 

第九章、多智能体强化学习

9.1、从单个到多个智能体

9.2、领域Q-learning

9.3、一维伊辛模型

9.4、平均场Q-learning和二维伊辛模型

9.5、混合合作竞技游戏

第十章、注意力和关系模型

10.1、注意力和关系

自注意力模型可用来构建图神经网络。关系模型-一个能识别对象并将他们相互关联的模型

10.2、利用注意力进行关系推理

10.3、对MNIST实现自注意力

10.4多头注意力和关系DQN

总结

DRL是深度学习和强化学习的结合

 

点赞 关注

回复
举报
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表