读《深度强化学习实战》心得之一

reflectometry · 发表于2023-10-30 15:15

读《深度强化学习实战》心得之一 [复制链接]

首先，感谢EEWORLD举办了“一起共读《深度强化学习实战》”的活动。电子工程世界（简称EEWORLD）建立于2006年，是一家专为中国电子工程师和电子设计主管提供电子技术开发应用资讯的网络传媒。探求电子工程设计的创新之源，提升电子工程设计的创新能力，推动中国电子领域的创新发展，是EEWORLD内容服务的目的和追求。

其次，感谢人民邮件出版社友情赞助。人民邮电出版社，1953年10月成立，隶属于中国工信出版传媒集团，是工业和信息化部主管的大型专业出版社。建社以来，人民邮电出版社始终坚持正确的出版导向，坚持为科技发展与社会进步服务、为繁荣社会主义文化服务，坚持积极进取、改革创新，围绕“立足工信事业，面向现代社会，传播科学知识，引领美好生活”的出版宗旨，已发展成为集图书、期刊、音像电子及数字出版于一体的综合性出版大社。

看到阿尔·拉希米的推荐：如果你渴望了解深度强化学习的基础知识，并想在这个令人兴奋的领域中从事研究或开发工作，那么我强烈推荐阅读这本书！考虑到（1）我渴望了解深度强化学习的知识，（2）我希望将深度强化学习技术用在工作中去，以期望拓宽研究领域，于是我参加了这次活动的申请。

如期收到《深度强化学习实战》这本书，于是，开始了快乐的阅读之旅。

首先，需要明确几个术语：强化学习，深度学习和深度强化学习。借助强大的互联网，找到比较合适的定义。

强化学习：代理通过与环境交互来学习。代理选择一个动作，并以状态(或观察)和奖励的形式接收来自环境的反馈。此循环将一直持续下去，或者直到代理终止于终端状态为止。然后新的学习情节开始。代理的目标是在情节中最大化奖励的总和。在学习阶段的开始，代理会进行大量探索：它会在相同状态下尝试不同的操作。它需要此信息来找到可能对各州采取的最佳措施。当学习继续进行时，探索会减少。相反，代理将利用自己的举动：这意味着他将根据自己的经验选择使报酬最大化的动作。

深度学习使用人工神经网络将输入映射到输出。深度学习功能强大，因为它仅需一个隐藏层就可以近似任何功能。网络存在带有节点的层。第一层是输入层。然后，隐藏层使用权重和激活函数转换数据。最后一层是输出层，在其中预测目标。通过调整权重，网络可以学习模式并改善其预测。

深度强化学习是深度学习和强化学习的结合。通过使用状态作为输入，将动作的值用作输出，以及在正确的方向上调整权重的奖励，代理可以学习预测给定状态的最佳动作。

因此，深度强化学习是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

话不多说，言归正传。《深度强化学习实战》这本书先介绍了深度强化学习的基础知识及相关算法，然后给出多个实战项目。该书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习和可解释性强化学习等内容。

该书分为两个部分。第一部分基础篇：介绍了深度强化学习的基础知识，共计5章。第二部分进阶篇：是在前面5章学习的基础上，介绍近年来深度强化学习方面取得的重大进展，共计6章。

个人认为，合理的阅读时长是每个星期一个章节。作者建议按照顺序阅读，因为每一章都是以前一章的概念作为基础的。

先写到这里，下周开始阅读本书的第一章节。

2023/10/29

查看本帖全部内容，请登录或者注册

wangerxian · 发表于2023-10-31 13:14

书籍是讲算法如何实现的吗？还是哪些算法可以做什么。

读《深度强化学习实战》心得之一 [复制链接]

最新回复