887|1

162

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《深度强化学习实战》阅读心得 [复制链接]

优点:此书,侧重理论讲解,讲的比较清晰明了,即便是代码部分,也有讲解程序的执行流程。总体来说是非常好的图书。

瑕疵:此书,设计结构存在大量的包含关系,后面章节会包含前面章节的内容,与一般的国内的书籍相比,思维逻辑很难理解,并非本书内容多么高深,而是描述的方式不太习惯。

 

基础篇-导出.pdf (276.21 KB, 下载次数: 1)

 

 

思维导图

深度强化学习实战

 

  1. 什么是强化学习
    1. 未来的计算机语言将更关注目标,而不太关注由程序员指定的过程
    2. 深度神经网络宝行很多层
    3. 强化学习是表示和解决控制任务的通用框架
    4. 深度学习
      1. 强化学习
        • 控制任务
    5. 图像分类这类普通任务属于监督学习
  2. 马尔科夫决策过程
    1. PyTorch深度学习框架
      1. 奖励机制
      2. 贪婪策略
      3. 选择策略
      4. 子主题
    2. PyTorch构建网络
      1. 自动微分
        • 构建模型
    3. 神经网络会为买个可能的动作产生期望的奖励
    4. 价值和策略函数
      1. 策略函数
        • 最优策略
          • 价值函数
  3. 深度Q网络
    1. Q函数
      1. 状态
        • 策略
          • 奖励
    2. Q-learning导航
      1. Gridworld游戏理论
      2. 超参数
        • 用于训练多机器学习算法的超参数
      3. 贴现因子
        • 控制这智能体在做决策时对未来奖励值的贴现程度
      4. 构建网络
        • 3层网络
          • 164(输入层)、150(隐藏层)、4(输出层)
      5. Gridworld游戏引擎
        • 代码实现
      6. 构建Q函数的神经网络
        • 创建神经网络模型、定义损失函数和学习率。构建优化器,以及定义一些参数。
        • PyTorch代码实现
          • 子主题
    3. 防止灾难性遗忘和经验回放
      1. 本质,非常相似的状态-动作对(目标相同)结果不同,导致算法无法学习
      2. 经验回放是缓解在线训练算法的主要问题(灾难性遗忘)的方法
      3. DQN代码实现-DQN损失图
    4. 利用目标网络提高稳定性
      1. 利用目标网络的Q值训练Q网络将提高训练的稳定性
      2. 代码实现
        • 与前面的训练结果相比,其训练收敛速度要快
  4. 策略梯度法
    1. 神经网络的策略函数 理论
    2. 策略梯度算法
      1. 定义目标
        • 神经网络需要对于网络权重(参数)可微的目标函数
      2. 强化动作
        • 一单一个动作从策略网络的概率分布中被抽样后
      3. 对数概率
      4. 信用分配
        • 训练Gridworld策略网络接收64维向量为输入,产生4维动作概率分布
    3. OpenAI Gym配合
      1. OpenAI Gym开源环境套件,具有非常适合测试强化学习算法的通用API
      2. CartPole环境属于OpenAI的经典控制部分
    4. REINFORCE算法
      1. 创建策略网络
      2. 智能体与环境交互
      3. 训练模型
        • 计算动作的概率、计算未来奖励、计算损失函数、进行反向传播
      4. 完整训练循环,代码实现
  5. 评论家算法
    1. 简介
      1. 该算法用于提高抽样效率和减小方差
    2. 重构价值-策略函数
      1. Q-learning他直接根据环境中可用的信息(奖励)进行学习
    3. 分布式训练
      1. Python可以使用多进程操作,加快训练算法速度
        • 代码实现
    4. 评论家优势算法
      1. 在此书中详细的描述了代码开发过程,和程序运行逻辑
         

最新回复

楼主非常用心了,还专门做了个思维导图   详情 回复 发表于 2023-11-28 15:59
点赞 关注

回复
举报

1万

帖子

2853

TA的资源

管理员

沙发
 

楼主非常用心了,还专门做了个思维导图

加EE小助手好友,
入技术交流群
EE服务号
精彩活动e手掌握
EE订阅号
热门资讯e网打尽
聚焦汽车电子软硬件开发
认真关注技术本身
 
个人签名玩板看这里:
https://bbs.eeworld.com.cn/elecplay.html
EEWorld测评频道众多好板等你来玩,还可以来频道许愿树许愿说说你想要玩的板子,我们都在努力为大家实现!
 

回复
您需要登录后才可以回帖 登录 | 注册

查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表