大体读明白点第二章的内容,但举的例子,我觉得有点不太好,一个是老虎机,这个想找出最大的回馈的机器,我觉得这是个䢫机问题,也就是说,每台机器都是程序控制的。我的意思是
它们的机率是一样的。再举了一个医生看病开药的事,说有10种药方,不知道开哪个。这种事情在中医就是个笑话。因为这得凭经验来做的事情。
以下是摘录:
书中的一个举例,把神经网络给定义了,“神经网络”是一种由多个“层”组成的机器学习模型,这些层会执行矩阵-向量乘法,然后应用一个非线性“激活”函数。神经网络的矩阵是模型的可学习参数,通常称为神经网络的权重。
这一句话把神经网络说的清清楚楚。
多数情况下,线图(有时在其他来源中称为路线图)类似于流程图,它表示沿着(直线或箭头的方向)进入流程(计算、函数、转换、过程等)中的输入数据流,
在2.2 解决多臂老虎机问题中 ,定义了Q函数,称为价值函数(value function)用于表示事物的价值。
任何强化学习算法的目标都是在整个事件过程中最大化奖励。
从上述定义,可以想到这和人类社会一样,都是在追求利益最大化。
马尔可夫性质:我们只需向其提供当前状态,神经网络就会为每个可能的动作产生期望的奖励。在强化学习中,这种重要的性质称为马尔可夫性质。
下边的话我觉得很重要:
强化学习算法本质上构造了一个在环境中活动的智能体。环境通常是一种游戏,但普遍来说是任何产生状态、动作和奖励的过程。
究竟如何利用当前的状态信息来决定采取什么动作呢?这就是关键概念价值函数和策略函数发挥作用的地方。
总之,这就是强化过程的一般过程:
|