1000|3

1万

帖子

16

TA的资源

版主

楼主
 

《深度强化学习实战》第三章读书摘要 [复制链接]

状态 是智能体收到的用于决定采取什么动作的信息,可以是电子游戏的原始像素、自动驾驶汽车的传感器数据,也可以是Gridworld中代表网格上所有对象位置的张量。

策略(表示为派)是智能体在收到一个状态时所遵揗的对策。

奖励 是智能体在采取动作后得到的反馈,会产生一个新状态。

 

  1. learning的主要思相是,算法预测一个状态-动作对的值,然后将该预测值与稍后观察到的累积奖励进行比较并更新算法的参数,以便下次做出更好的预测。

 

 

Q-learning本身与深度学习或神经网络无关,它是一种抽象的数学结构,指的是通过学习一个名为Q函数的函数来解决控制任务。向Q函数提供一个状态(例如一个游戏状态),它会预测在给定输入状态下可能采取的所有可能动作的价值大小,我们将这些预测值称为Q值。

 

 

本章有点乱但小结总结的不错:

状态空间:是环境可能处于的所有可能状态的集合。状态通常被编码为张量,所以状态空间可能是一枪战类型为R(n次方)或R(n*m)的矩阵。

动作空间:是给定状态下所有可能动作的集合。例如,象棋游戏的动作空间将是给定某个游戏状态下所有符合规则走法的集合。

状态-价值:是在遵循某个策略的情况下某个状态的期望贴现奖励总和。

动作-价值:是在特定状态下采取某个动作的期望奖励,它是状态-动作对应的值。

策略函数:是将状态映射到动作的函数,可用于决定在给定某个输入状态时应该采取哪个动作。

Q函数是一个接收状态-动作并返回动作-价值的函数。

  1. learning是强化学习的一程形式,其中我们试图对Q函数进行建模。

深度Q网络(DQN)只是使用深度学习算法作为Q-learning模型的情况。

 

 

 

 

最新回复

希望楼主整体 介绍下这本书的内容,参考是否有购买价值   详情 回复 发表于 2023-11-6 15:19
点赞 关注
个人签名http://shop34182318.taobao.com/
https://shop436095304.taobao.com/?spm=a230r.7195193.1997079397.37.69fe60dfT705yr

回复
举报

7198

帖子

11

TA的资源

版主

沙发
 
这个要有一定基础的才能看懂呀,特别是线性代数要学好。
 
 

回复

752

帖子

5

TA的资源

纯净的硅(高级)

板凳
 

希望楼主整体 介绍下这本书的内容,参考是否有购买价值

点评

咋说呢,这本书是老外写的,有些地方看不懂 。有些例子举的不是中国人能接受的。再有就是PYTHON要求精通级。数学公式也多。反正有点高难。但是人家请得比国内的,我觉得,能讲得透彻一点。  详情 回复 发表于 2023-11-6 20:52
 
 
 

回复

1万

帖子

16

TA的资源

版主

4
 
chejm 发表于 2023-11-6 15:19 希望楼主整体 介绍下这本书的内容,参考是否有购买价值

咋说呢,这本书是老外写的,有些地方看不懂 。有些例子举的不是中国人能接受的。再有就是PYTHON要求精通级。数学公式也多。反正有点高难。但是人家请得比国内的,我觉得,能讲得透彻一点。

 
个人签名http://shop34182318.taobao.com/
https://shop436095304.taobao.com/?spm=a230r.7195193.1997079397.37.69fe60dfT705yr
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条
立即报名 | 2025 瑞萨电子工业以太网技术日即将开启!
3月-4月 深圳、广州、北京、苏州、西安、上海 走进全国6城
2025瑞萨电子工业以太网技术巡回沙龙聚焦工业4.0核心需求,为工程师与企业决策者提供实时通信技术最佳解决方案。
预报从速,好礼等您拿~

查看 »

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表