《深度强化学习实战》第二章：贪婪策略和Softmax选择策略

皓月光兮非自明 · 发表于2023-11-26 02:21

《深度强化学习实战》第二章：贪婪策略和Softmax选择策略 [复制链接]

（上周一直挣扎着想看想写也想发，但最近疑似又中招了，鼻咽喉不适，一坐到桌前就是发寒目眩，每天保底半筐拭鼻纸，日前整晚整晚睡不着睡不好头发也大把大把的掉。拉低了效率属实有心无力。日前无核酸检测和测试盒了，也不知是三年遗物还是最近沸沸扬扬的呼吸道疾病，今日下午精神好些打扫了下屋子，看着簸箕里这两周里怕是掉了1/5的发量。真是谁难受谁知道，切望同仁们勿要掉以轻心。/惨）

以下“动作”，我习惯称为“选择”，“价值”习惯分称具体为如“期望价值/预期价值”“回报价值/收益价值”等

“神经网络”是一种由多个“层”组成的机器学习模型，这些层会执行矩阵-向量乘法，然后应用一个非线性“激活”函数ReLU，即整流线性单元（Rectified Linear Unit）。神经网络的矩阵是模型的可学习参数，通常称为神经网络的“权重”。

任何能够称为线图的东西必须能够在任何抽象层次上进行详细查看且保持类型兼容（意味着进入和退出流程的数据类型必须兼容且合理——产生有序列表的流程不应该与另一个期望输入整数的流程相连接）。

2.1 贪婪策略

通过设立一个期望价值，当选择动作的回报价值低于期望价值时，在所有选项中随机选取一个并执行选择，最终获得每个选项的均值：

k：选择次数

u：平均回报价值

x：最新一次选择的回报价值

通过不断选取，最终获得一组所有选择平均的回报价值，在其中最终筛选出平均回报价值最高的选择。但其缺点是收敛速度或者说收敛效率较低，因为所有选项被选择的概率是相等的，策略会反复选择较低回报均值的选项，降低了演化效率。

2.2 Softmax选择策略

相较于贪婪策略，Softmax选择策略引入了权重因子，通过调整加权系数，使得相较于前面的选择，往后的选择可以尽可能地落在平均回报价值相对较高的选项中，因为它们在演化中会被赋予更高的选择概率（称为Softmax概率），从而大幅提高收敛速度。

但根据：

Pr：选择-回报价值向量

Q_k：选择-期望价值函数

：分布轴缩放参数

由于

的存在，Softmax选择策略需要通过人为干预修正调节以在Pr上获得更好的差异度，因此决定了一个Softmax选择策略方案仅适用于某一特定模型场景下的局限。

chejm · 发表于2023-11-26 20:19

先盛赞一下楼主，先收藏起来，慢慢研究研究，顶起来

nian1206

标记一下，后面用到了好学习学习，非常感谢分享，好人一生平安！

《深度强化学习实战》第二章：贪婪策略和Softmax选择策略 [复制链接]

最新回复