本帖最后由 Auca 于 2023-11-5 15:14 编辑
“强化学习算法只有一个目标,即最大化其奖励。”
这句话让我想起我的老师在机器视觉课程里的一句话,所谓ai,实际上就是把无穷的解变成有限可求的解。
由于学业关系,只能写写书籍前二十页左右的内容。之前有稍微学习过机器视觉、神经网络、群智能算法相关的内容(之所以提到这三个,在我看来他们都有某种仿真的意味,仿佛是在模仿自然在亿万年进化中得到的一个爆搜解,很有意思),所以阅读起来还是感觉到比较亲切的。不过这本书主要侧重在于“实践”,即使是没有相关的知识也可以跟着书籍实践,当然,如果感兴趣的话跟着这本书的顺序逐渐了解
也是一件有意思的事情。
第1章 什么是强化学习
第一章对深度强化学习进行了宏观介绍,阐释其主要概念及使用方法。
强化学习旨在学习如何做,即如何根据情况采取动作,从而实现数值奖励信号最大化(也就是本文开头第一句引用的话)。学习者不会接到动作指令,而是必须自行尝试去发现回报最高的动作方案。这与监督学习(常见的如图像分类)不同,后者会要求我们预先知道正确答案是什么(例如图像label),后者的算法会先采取随机猜测方法,然后反复修正,直至学习到对应正确标签的图像特征。
书中将神经网络作为一个智能体的例子
以我熟悉的识别手写数字识别(mnist数据集)来简要分享一下。
此数据集中的每个手写数字图像分辨率为28*28,每个像素的灰度值在0-1之间,所以在网络输入层(上图中左边第一行圆形)需要有784个神经元(也就是一一对应28*28个像素),经过隐藏层(图中第二三列的圆形)的处理,达到10个神经元(对应0-9这10个数字)的输出层(图中第四列的原型)。简单来说,隐藏层就像是一个函数,将784个输入值对应到10个输出值,训练就像一个去拟合的过程。
智能体是所有强化学习问题的焦点,这本书中主要关注用深度神经网络实现智能体。
在本章节除了智能体中还提到了其他几个要素:
环境:是智能体采取动作的潜在动态条件。
状态:是环境的“快照”,智能体可以访问并使用状态做出决策。类似于从环境中采样得到的样本。
动作:是智能体做出的决策,它会对环境产生影响。
奖励:智能体做出动作后接收到环境向智能体提供的正向或负向信号。奖励是智能体收到的唯一学习信号。
|