本篇讲述深度强化学习,这本书以一个章节进行了介绍。这让我想起之前有读过一本书专门有介绍,那在此做下学习笔记,进行再学习与分享。
强化学习(Reinforcememt leamimng,RL)是机器学习的一个重要分支,相较于机器学习中经典的有监督学习和无监督学习,强化学习的最大特点是在交五中学习。
深度强化学习(Deep Reinforcement Leamming,DRL)是深度学习与强化学习相结合的产物,学习被视为实现通用人工智能的重要途径。它集成了深度学习在视觉等感知问题上的强大理解能力以及强化学习的决策能力,实现了端到端学习。
强化学习是指智能体以“试错”@的方式进行学习,通过与环境交互获得奖励以指导行为,目标是使智能体获得最大的奖励。强化学习的原理如下图所示:
图1:强化学习原理
强化学习的基本概念包括:智能体,环境,状态,动作,奖励,策略,目标。
强化学习要解决的间题可以抽象成马尔可夫决策过程(Makov Decision Process,MDP);马尔可夫过程的特点是,系统下一时刻的状态由当前时刻的状态决定,而与更早的时刻无关。
Q学习是强化学习的主要算法之一,是一种无模型的学习方法,它提供智能系统在马尔可天环境下通过动作序列选择最优动作的学习能力。Q学习的一个关键假设是智能体与环境的交互可视为一个马尔可夫决策过程,即智能体当前所处的获态和选择的动作,取决于一个固定的状态转移概率分布、下一个状态,并且得到一个即时回报。Q学习的目标是寻找一个策略以最大化未来获得的回报,且最终能够根据当前状态及最优策略给出期望的动作。它的优点之一是在不知道某个环境的模型的条件下,也可对动作进行期望值比较。书中列出了一个深度Q学习的例子---倒立摆控制,代码挺详细,感兴趣的可以仿真学习下,也可以拓展学习深度强化学习。
至此,《机器学习算法与实现 —— Python编程与应用实例》这本书阅读与与伴随代码实践了一遍,拓展了认识能力,收获良多,到此告一段落。
|