1096|2

87

帖子

0

TA的资源

一粒金砂(高级)

楼主
 

《深度强化学习实战》第二章:贪婪策略和Softmax选择策略 [复制链接]

(上周一直挣扎着想看想写也想发,但最近疑似又中招了,鼻咽喉不适,一坐到桌前就是发寒目眩,每天保底半筐拭鼻纸,日前整晚整晚睡不着睡不好头发也大把大把的掉。拉低了效率属实有心无力。日前无核酸检测和测试盒了,也不知是三年遗物还是最近沸沸扬扬的呼吸道疾病,今日下午精神好些打扫了下屋子,看着簸箕里这两周里怕是掉了1/5的发量。真是谁难受谁知道,切望同仁们勿要掉以轻心。/惨)

 

以下“动作”,我习惯称为“选择”,“价值”习惯分称具体为如“期望价值/预期价值”“回报价值/收益价值”等

 

            “神经网络”是一种由多个“层”组成的机器学习模型,这些层会执行矩阵-向量乘法,然后应用一个非线性“激活”函数ReLU,即整流线性单元(Rectified Linear Unit)。神经网络的矩阵是模型的可学习参数,通常称为神经网络的“权重”。

            任何能够称为线图的东西必须能够在任何抽象层次上进行详细查看且保持类型兼容(意味着进入和退出流程的数据类型必须兼容且合理——产生有序列表的流程不应该与另一个期望输入整数的流程相连接)。

 

2.1 贪婪策略

            通过设立一个期望价值,当选择动作的回报价值低于期望价值时,在所有选项中随机选取一个并执行选择,最终获得每个选项的均值:

 

                    k:选择次数

                    u:平均回报价值

                    x:最新一次选择的回报价值

            通过不断选取,最终获得一组所有选择平均的回报价值,在其中最终筛选出平均回报价值最高的选择。但其缺点是收敛速度或者说收敛效率较低,因为所有选项被选择的概率是相等的,策略会反复选择较低回报均值的选项,降低了演化效率。

 

2.2 Softmax选择策略

            相较于贪婪策略,Softmax选择策略引入了权重因子,通过调整加权系数,使得相较于前面的选择,往后的选择可以尽可能地落在平均回报价值相对较高的选项中,因为它们在演化中会被赋予更高的选择概率(称为Softmax概率),从而大幅提高收敛速度。

但根据:

 

                    Pr:选择-回报价值向量

                    Qk:选择-期望价值函数

        

:分布轴缩放参数

            由于

 的存在,Softmax选择策略需要通过人为干预修正调节以在Pr上获得更好的差异度,因此决定了一个Softmax选择策略方案仅适用于某一特定模型场景下的局限。

最新回复

标记一下,后面用到了好学习学习,非常感谢分享,好人一生平安!   详情 回复 发表于 2024-6-6 17:59
点赞 关注

回复
举报

752

帖子

5

TA的资源

纯净的硅(高级)

沙发
 

先盛赞一下楼主,先收藏起来,慢慢研究研究,顶起来

 
 

回复

90

帖子

0

TA的资源

一粒金砂(中级)

板凳
 

标记一下,后面用到了好学习学习,非常感谢分享,好人一生平安!

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条
立即报名 | 2025 瑞萨电子工业以太网技术日即将开启!
3月-4月 深圳、广州、北京、苏州、西安、上海 走进全国6城
2025瑞萨电子工业以太网技术巡回沙龙聚焦工业4.0核心需求,为工程师与企业决策者提供实时通信技术最佳解决方案。
预报从速,好礼等您拿~

查看 »

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表