电子工程世界-论坛»论坛 › 电子技术交流 › 嵌入式系统 › 《深度强化学习实战》阅读心得2

阅 920|回 0

157 帖子	0 TA的资源

一粒金砂（高级）

楼主

发表于2023-12-6 14:05 只看该作者

《深度强化学习实战》阅读心得2 [复制链接]

深度强化学习

第六章、进化算法

6.1、另一种强化算法--进化算法

进化算法不需要单个智能体去学习，不依赖于梯度下降，称为无梯度算法。

6.2、进化算法理论

进化强化学习的目标与基于反向传播和梯度下降的训练完全相同，区别是使用这个进化过程来优化模型，也就是使用遗传算法优化神经网络模型。

6.3、进化实践

代码执行逻辑

6.4、CartPole遗传算法

代码执行逻辑

6.5、进化算法优点

进化算法（无梯度算法）的优势，他们会比基于梯度算法探索的更多

6.6、进化算法扩展性

进化算法的模型设计，可以实现并行运行，甚至可以在多台电脑下运行，从而加快了训练的过程

代码执行逻辑

第七章、Dist-DQN获取

7.1、频率论和贝叶斯论对比

贝叶斯决策（Bayesian Decision Theory）就是在不完全信息下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。

7.2、贝尔曼方程

贝尔曼方程是动态规划这些数学最佳化方法能够达到最佳化的必要条件

7.3、分布式Q-learning

Q-learning是基于决策过程的强化学习算法,可以自动学习最优决策

7.4、比较概率分布

7.5、Dist-DQN模拟数据训练

7.6、Dist-DQN算法玩雅达利游戏

第八章、好奇心驱动的探索

8.1、利用预测编码处理稀疏奖励

8.2、反向动态预测

8.3、搭建《超级马里奥兄弟》环境

正向模型、反向模型和编码器模型共同构成了内在好奇心模块。

8.4、预处理和Q网络

8.5、创建Q网络和策略函数

8.6、内在好奇心模块

好奇心模块由：正向模型、反向模型和编码器模型

8.7、可替代的内在奖励机制

第九章、多智能体强化学习

9.1、从单个到多个智能体

9.2、领域Q-learning

9.3、一维伊辛模型

9.4、平均场Q-learning和二维伊辛模型

9.5、混合合作竞技游戏

第十章、注意力和关系模型

10.1、注意力和关系

自注意力模型可用来构建图神经网络。关系模型-一个能识别对象并将他们相互关联的模型

10.2、利用注意力进行关系推理

10.3、对MNIST实现自注意力

10.4多头注意力和关系DQN

总结

DRL是深度学习和强化学习的结合

共读, 《深度强化学习实战》

此帖出自嵌入式系统论坛

点赞关注

嵌入式论坛嵌入式开发嵌入式技术嵌入式教程

返回列表发新帖回复

活动更多>>

开源项目更多>>

随便看看

《深度强化学习实战》阅读心得3-程序运行
软件运行经过两个月的阅读和实践，对深度强化学习有了初步的认识和了解，了解了注意力和好奇心。读一本书把深度强化学习研究透彻也不太可能，接下来继续待着这份好奇心去阅读更多的相关书籍和资源，继续探索深度强度学习。感谢电子工程世界提供的这次阅读机会 ...
《深度强化学习实战》阅读心得
优点：此书，侧重理论讲解，讲的比较清晰明了，即便是代码部分，也有讲解程序的执行流程。总体来说是非常好的图书。瑕疵：此书，设计结构存在大量的包含关系，后面章节会包含前面章节的内容，与一般的国内的书籍相比，思维逻辑很难理解，并非本书内容多么高深 ...
【Follow me第二季第3期】开箱 + RA6M5
简介等待了这么久，快递终于是到了，这块板子被里三层外三层的包裹着。箱子非常大，到最后只拆剩下了一点点。[attach]863648[/attach]板子正面照[attach]863649[/attach]板子附送的线[attach]863650[/attach]这个板子是我所有带网口的板子中唯一一个附送了网 ...
EEWORLD大学堂----财哥说钛丝
KiCad8怎么画异形焊盘？
STM 的Arduion 无法下载固件问题？
最经典的51教程
MSP430F5438A的串口
艾拉比助力2018 STM32研讨会
USB接口芯片 CY7C68013 （3）