优点:此书,侧重理论讲解,讲的比较清晰明了,即便是代码部分,也有讲解程序的执行流程。总体来说是非常好的图书。
瑕疵:此书,设计结构存在大量的包含关系,后面章节会包含前面章节的内容,与一般的国内的书籍相比,思维逻辑很难理解,并非本书内容多么高深,而是描述的方式不太习惯。
思维导图
深度强化学习实战
- 什么是强化学习
- 未来的计算机语言将更关注目标,而不太关注由程序员指定的过程
- 深度神经网络宝行很多层
- 强化学习是表示和解决控制任务的通用框架
- 深度学习
- 强化学习
- 图像分类这类普通任务属于监督学习
- 马尔科夫决策过程
- PyTorch深度学习框架
- 奖励机制
- 贪婪策略
- 选择策略
- 子主题
- PyTorch构建网络
- 自动微分
- 神经网络会为买个可能的动作产生期望的奖励
- 价值和策略函数
- 策略函数
- 深度Q网络
- Q函数
- 状态
- Q-learning导航
- Gridworld游戏理论
- 超参数
- 贴现因子
- 构建网络
- Gridworld游戏引擎
- 构建Q函数的神经网络
- 创建神经网络模型、定义损失函数和学习率。构建优化器,以及定义一些参数。
- PyTorch代码实现
- 防止灾难性遗忘和经验回放
- 本质,非常相似的状态-动作对(目标相同)结果不同,导致算法无法学习
- 经验回放是缓解在线训练算法的主要问题(灾难性遗忘)的方法
- DQN代码实现-DQN损失图
- 利用目标网络提高稳定性
- 利用目标网络的Q值训练Q网络将提高训练的稳定性
- 代码实现
- 策略梯度法
- 神经网络的策略函数 理论
- 策略梯度算法
- 定义目标
- 强化动作
- 对数概率
- 信用分配
- 训练Gridworld策略网络接收64维向量为输入,产生4维动作概率分布
- OpenAI Gym配合
- OpenAI Gym开源环境套件,具有非常适合测试强化学习算法的通用API
- CartPole环境属于OpenAI的经典控制部分
- REINFORCE算法
- 创建策略网络
- 智能体与环境交互
- 训练模型
- 计算动作的概率、计算未来奖励、计算损失函数、进行反向传播
- 完整训练循环,代码实现
- 评论家算法
- 简介
- 该算法用于提高抽样效率和减小方差
- 重构价值-策略函数
- Q-learning他直接根据环境中可用的信息(奖励)进行学习
- 分布式训练
- Python可以使用多进程操作,加快训练算法速度
- 评论家优势算法
- 在此书中详细的描述了代码开发过程,和程序运行逻辑
|