《深度强化学习实战》阅读心得

小火苗 · 发表于2023-11-28 09:29

《深度强化学习实战》阅读心得 [复制链接]

优点：此书，侧重理论讲解，讲的比较清晰明了，即便是代码部分，也有讲解程序的执行流程。总体来说是非常好的图书。

瑕疵：此书，设计结构存在大量的包含关系，后面章节会包含前面章节的内容，与一般的国内的书籍相比，思维逻辑很难理解，并非本书内容多么高深，而是描述的方式不太习惯。

基础篇-导出.pdf (276.21 KB, 下载次数: 1)

思维导图

深度强化学习实战

什么是强化学习
1. 未来的计算机语言将更关注目标，而不太关注由程序员指定的过程
2. 深度神经网络宝行很多层
3. 强化学习是表示和解决控制任务的通用框架
4. 深度学习
  1. 强化学习
    - 控制任务
5. 图像分类这类普通任务属于监督学习
马尔科夫决策过程
1. PyTorch深度学习框架
  1. 奖励机制
  2. 贪婪策略
  3. 选择策略
  4. 子主题
2. PyTorch构建网络
  1. 自动微分
    - 构建模型
3. 神经网络会为买个可能的动作产生期望的奖励
4. 价值和策略函数
  1. 策略函数
    - 最优策略
      - 价值函数
深度Q网络
1. Q函数
  1. 状态
    - 策略
      - 奖励
2. Q-learning导航
  1. Gridworld游戏理论
  2. 超参数
    - 用于训练多机器学习算法的超参数
  3. 贴现因子
    - 控制这智能体在做决策时对未来奖励值的贴现程度
  4. 构建网络
    - 3层网络
      - 164（输入层）、150（隐藏层）、4（输出层）
  5. Gridworld游戏引擎
    - 代码实现
  6. 构建Q函数的神经网络
    - 创建神经网络模型、定义损失函数和学习率。构建优化器，以及定义一些参数。
    - PyTorch代码实现
      - 子主题
3. 防止灾难性遗忘和经验回放
  1. 本质，非常相似的状态-动作对（目标相同）结果不同，导致算法无法学习
  2. 经验回放是缓解在线训练算法的主要问题（灾难性遗忘）的方法
  3. DQN代码实现-DQN损失图
4. 利用目标网络提高稳定性
  1. 利用目标网络的Q值训练Q网络将提高训练的稳定性
  2. 代码实现
    - 与前面的训练结果相比，其训练收敛速度要快
策略梯度法
1. 神经网络的策略函数理论
2. 策略梯度算法
  1. 定义目标
    - 神经网络需要对于网络权重（参数）可微的目标函数
  2. 强化动作
    - 一单一个动作从策略网络的概率分布中被抽样后
  3. 对数概率
  4. 信用分配
    - 训练Gridworld策略网络接收64维向量为输入，产生4维动作概率分布
3. OpenAI Gym配合
  1. OpenAI Gym开源环境套件，具有非常适合测试强化学习算法的通用API
  2. CartPole环境属于OpenAI的经典控制部分
4. REINFORCE算法
  1. 创建策略网络
  2. 智能体与环境交互
  3. 训练模型
    - 计算动作的概率、计算未来奖励、计算损失函数、进行反向传播
  4. 完整训练循环，代码实现
评论家算法
1. 简介
  1. 该算法用于提高抽样效率和减小方差
2. 重构价值-策略函数
  1. Q-learning他直接根据环境中可用的信息（奖励）进行学习
3. 分布式训练
  1. Python可以使用多进程操作，加快训练算法速度
    - 代码实现
4. 评论家优势算法
  1. 在此书中详细的描述了代码开发过程，和程序运行逻辑

okhxyyo · 发表于2023-11-28 15:59

楼主非常用心了，还专门做了个思维导图

《深度强化学习实战》阅读心得 [复制链接]

最新回复