721|0

1万

帖子

16

TA的资源

版主

楼主
 

《深度强化学习实战》第二章读书摘要 [复制链接]

      大体读明白点第二章的内容,但举的例子,我觉得有点不太好,一个是老虎机,这个想找出最大的回馈的机器,我觉得这是个䢫机问题,也就是说,每台机器都是程序控制的。我的意思是

它们的机率是一样的。再举了一个医生看病开药的事,说有10种药方,不知道开哪个。这种事情在中医就是个笑话。因为这得凭经验来做的事情。

       以下是摘录:

     

书中的一个举例,把神经网络给定义了,“神经网络”是一种由多个“层”组成的机器学习模型,这些层会执行矩阵-向量乘法,然后应用一个非线性“激活”函数。神经网络的矩阵是模型的可学习参数,通常称为神经网络的权重。

 

这一句话把神经网络说的清清楚楚。

 

多数情况下,线图(有时在其他来源中称为路线图)类似于流程图,它表示沿着(直线或箭头的方向)进入流程(计算、函数、转换、过程等)中的输入数据流,

 

在2.2 解决多臂老虎机问题中 ,定义了Q函数,称为价值函数(value function)用于表示事物的价值。

 

 

 

 

 

 

 

 

 

 

 

 

任何强化学习算法的目标都是在整个事件过程中最大化奖励。

 

从上述定义,可以想到这和人类社会一样,都是在追求利益最大化。

 

马尔可夫性质:我们只需向其提供当前状态,神经网络就会为每个可能的动作产生期望的奖励。在强化学习中,这种重要的性质称为马尔可夫性质。

 

下边的话我觉得很重要:

 

强化学习算法本质上构造了一个在环境中活动的智能体。环境通常是一种游戏,但普遍来说是任何产生状态、动作和奖励的过程。

 

究竟如何利用当前的状态信息来决定采取什么动作呢?这就是关键概念价值函数和策略函数发挥作用的地方。

 

 

总之,这就是强化过程的一般过程:

 

点赞 关注
个人签名http://shop34182318.taobao.com/
https://shop436095304.taobao.com/?spm=a230r.7195193.1997079397.37.69fe60dfT705yr

回复
举报
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/8 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表