1091|0

89

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《深度强化学习实战》第三章:预测最佳状态和动作:深度Q网络 [复制链接]

第三章:预测最佳状态和动作:深度Q网络

3.1 Q函数

        状态:智能体收到的用于决定采取什么动作的信息。

        策略:智能体在收到一个状态时所遵循的对策。

        奖励:智能体在采取选择后得到的反馈,并会产生一个新的状态。

 

        价值函数:

 

        即,

 

                π:策略

                s:状态

                ω:赋予奖励的权重

                r:奖励

 

3.2 Q-Learning

        Q-Learning主要思想:预测一个状态-动作所对应的值,将该预测值与动作后观察到的累积奖励进行比较并更新算法的参数,以便下次做出更好的预测。

        Q-Learning函数:

 

 :更新后的Q值

 :当前的Q值

                a:步长大小,学习率

                ϒ:贴现因子,决定奖励值的贴现程度,且值应处于(0,1)区间内

 :所有动作的最大Q值

点赞 关注

回复
举报
您需要登录后才可以回帖 登录 | 注册

查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表