824|3

14

帖子

0

TA的资源

一粒金砂(中级)

楼主
 

《深度强化学习实战》第一章读书心得 [复制链接]

本帖最后由 Auca 于 2023-11-5 15:14 编辑

    “强化学习算法只有一个目标,即最大化其奖励。”

    这句话让我想起我的老师在机器视觉课程里的一句话,所谓ai,实际上就是把无穷的解变成有限可求的解。

    由于学业关系,只能写写书籍前二十页左右的内容。之前有稍微学习过机器视觉、神经网络、群智能算法相关的内容(之所以提到这三个,在我看来他们都有某种仿真的意味,仿佛是在模仿自然在亿万年进化中得到的一个爆搜解,很有意思),所以阅读起来还是感觉到比较亲切的。不过这本书主要侧重在于“实践”,即使是没有相关的知识也可以跟着书籍实践,当然,如果感兴趣的话跟着这本书的顺序逐渐了解

也是一件有意思的事情。

    第1章 什么是强化学习

    第一章对深度强化学习进行了宏观介绍,阐释其主要概念及使用方法。

 
    强化学习旨在学习如何做,即如何根据情况采取动作,从而实现数值奖励信号最大化(也就是本文开头第一句引用的话)。学习者不会接到动作指令,而是必须自行尝试去发现回报最高的动作方案。这与监督学习(常见的如图像分类)不同,后者会要求我们预先知道正确答案是什么(例如图像label),后者的算法会先采取随机猜测方法,然后反复修正,直至学习到对应正确标签的图像特征。
    书中将神经网络作为一个智能体的例子

    以我熟悉的识别手写数字识别(mnist数据集)来简要分享一下。

    此数据集中的每个手写数字图像分辨率为28*28,每个像素的灰度值在0-1之间,所以在网络输入层(上图中左边第一行圆形)需要有784个神经元(也就是一一对应28*28个像素),经过隐藏层(图中第二三列的圆形)的处理,达到10个神经元(对应0-9这10个数字)的输出层(图中第四列的原型)。简单来说,隐藏层就像是一个函数,将784个输入值对应到10个输出值,训练就像一个去拟合的过程。

    智能体是所有强化学习问题的焦点,这本书中主要关注用深度神经网络实现智能体。

    在本章节除了智能体中还提到了其他几个要素:

    环境:是智能体采取动作的潜在动态条件。

    状态:是环境的“快照”,智能体可以访问并使用状态做出决策。类似于从环境中采样得到的样本。

    动作:是智能体做出的决策,它会对环境产生影响。

    奖励:智能体做出动作后接收到环境向智能体提供的正向或负向信号。奖励是智能体收到的唯一学习信号。

  

 

最新回复

希望楼主继续分享新内容,我会持续 支持你的无私精神   详情 回复 发表于 2023-11-6 09:54
点赞 关注(1)

回复
举报

6828

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

为什么是需要有784个神经元?

点评

一副图像是由像素组成的,这个数据集中的手写数字图片是28*28个像素,你可以把每个像素看作一个数字,那么这个图片(灰度图)实际上是一个28*28的矩阵,所以实际上输入的是28*28个数字(input),因此需要784(28*28)  详情 回复 发表于 2023-11-6 09:57
 
 

回复

755

帖子

5

TA的资源

纯净的硅(高级)

板凳
 

希望楼主继续分享新内容,我会持续 支持你的无私精神

 
 
 

回复

14

帖子

0

TA的资源

一粒金砂(中级)

4
 
Jacktang 发表于 2023-11-6 07:29 为什么是需要有784个神经元?

一副图像是由像素组成的,这个数据集中的手写数字图片是28*28个像素,你可以把每个像素看作一个数字,那么这个图片(灰度图)实际上是一个28*28的矩阵,所以实际上输入的是28*28个数字(input),因此需要784(28*28)个

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/6 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表