深度强化学习
第六章、进化算法
6.1、另一种强化算法--进化算法
进化算法不需要单个智能体去学习,不依赖于梯度下降,称为无梯度算法。
6.2、进化算法理论
进化强化学习的目标与基于反向传播和梯度下降的训练完全相同,区别是使用这个进化过程来优化模型,也就是使用遗传算法优化神经网络模型。
6.3、进化实践
代码执行逻辑
6.4、CartPole遗传算法
代码执行逻辑
6.5、进化算法优点
进化算法(无梯度算法)的优势,他们会比基于梯度算法探索的更多
6.6、进化算法扩展性
进化算法的模型设计,可以实现并行运行,甚至可以在多台电脑下运行,从而加快了训练的过程
代码执行逻辑
第七章、Dist-DQN获取
7.1、频率论和贝叶斯论对比
贝叶斯决策(Bayesian Decision Theory)就是在不完全信息下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
7.2、贝尔曼方程
贝尔曼方程是动态规划这些数学最佳化方法能够达到最佳化的必要条件
7.3、分布式Q-learning
Q-learning是基于决策过程的强化学习算法,可以自动学习最优决策
7.4、比较概率分布
7.5、Dist-DQN模拟数据训练
7.6、Dist-DQN算法玩雅达利游戏
第八章、好奇心驱动的探索
8.1、利用预测编码处理稀疏奖励
8.2、反向动态预测
8.3、搭建《超级马里奥兄弟》环境
正向模型、反向模型和编码器模型共同构成了内在好奇心模块。
8.4、预处理和Q网络
8.5、创建Q网络和策略函数
8.6、内在好奇心模块
好奇心模块由:正向模型、反向模型和编码器模型
8.7、可替代的内在奖励机制
第九章、多智能体强化学习
9.1、从单个到多个智能体
9.2、领域Q-learning
9.3、一维伊辛模型
9.4、平均场Q-learning和二维伊辛模型
9.5、混合合作竞技游戏
第十章、注意力和关系模型
10.1、注意力和关系
自注意力模型可用来构建图神经网络。关系模型-一个能识别对象并将他们相互关联的模型
10.2、利用注意力进行关系推理
10.3、对MNIST实现自注意力
10.4多头注意力和关系DQN
总结
DRL是深度学习和强化学习的结合
|