|
回复: FPGA——人工智能的未来
六、新大脑皮层的多层结构与特征序列处理机制
我们若用实验的方法对视觉处理区域进行观察,就会发现它的逻辑结构具有多层性,最基本的视觉区是V1区,它由许多彼此分离的小皮层区域组成。V1区把处理后的特征序列传入V2区,V2区也由许多子区域组成,但数目较少,面积较大,它将特征序列传至V4区,V4区也是如此,最后传入IT区,这一区域是单一区域,对整个视觉界有鸟瞰作用。
同时,视觉区,听觉区等不同方面的处理区域之间也有高层将他们综合,使得各个感觉区之间是连通的。
值得指出的是,低级处理层有通向高级处理层的前向通路,而高级处理层有更多数量的反馈通路回馈到低级处理层,这些反馈的存在自有其意义,而计算机却很难表达。
基于这种基础结构,我们讨论一下信息流,也就是特征序列是怎样在这个体系中上下传播的。
设想一下,你是怎么通过视觉信息分辨出向你走来的是你的一个老朋友?
你的一个较高的大脑皮层的发出指示,要识别一张脸,它的向下反馈通路会通知它下属的物体识别皮层中所有关于朋友的脸的特征信号通道准入开启,而识别为其他物品的信号通道准入通道关闭。期待下方的大脑皮层的反馈信号会满足这种预测,即有脸特征的信号传入通道。这时,进入你眼帘的是对这张脸不同部位点进行的扫描,扫描是光线转化为神经冲动的过程。这些冲动表征的是一系列的特征,即特征序列,通过输入神经进入你的大脑,请注意,进入大脑的视觉信号并不是物体的图像,在大脑中,根本找不到这样的图像区域,我们只是看到了由图像抽象出来的一系列特征,这些特征最初也许只是相邻输入神经元间表征的物体颜色的跃变。这些信息被V1区整合成一个相对抽象了一些的特征序列,比如一个很小的倾斜直线或者边缘线,这些序列及从其他V1区的序列被送到较高级的V2区进行更高程度的整合,比如说发现这是一个眼睛的轮廓。然后送至V4区……就是这样,从低层而来的信号在准入开关的筛选之下,逐步攀升到较高级的区域,此时这个皮层将寻找这些特征序列中的若干特征,向上级皮层汇报一个特征名,表明这是一张脸,上级的脸识别的信号准入通道收到了应有的信号,即预测是成功的。此时,它将做出进一步预测,根据下级传来的预测外通道中最有区别能力的一些独有特征,猜测他是张三,于是开启关于记忆中张三特征序列的所有通道,只允许这个序列特征进入预测通道,并将这个特征名通知下面的皮层,这个特征名被下级皮层转换成自身的一系列具体的特征准入通道开和关,并以相同的办法通知下级,当传播到运动控制层时,它的输出控制运动神经(比如眼球的运动肌肉)对特定的欲观察处进行观察,V1区的细胞收到了新的信号,将特征上报,一层层回馈回去,符合的信号一直传入上层,如果上级的预测得到了肯定,那么它将会用同样的办法进一步核实,这就是对一张脸的不同部位进行扫描的控制依据。如果猜测失误,即没有在开通的通道中收到期望的信号,那么上级会从预测外通道中获取其他一些特征去匹配另外一个记忆,并根据此猜测开启其他一些开关。并通知下级去支配运动器官,期待其反馈。这样,确定的过程逐渐建立起来,当坚信它是某事物的时候,表征这一猜测特征的一系列神经元将一直处于兴奋,用于代表这个事物的特征序列,我们称这种现象叫恒定表征,我们有有理由承认,下属层向上属层汇报的特征名就是基于此层的恒定表征,恒定表征基于各层的特征组,发生在各级的处理皮层上。
设想如果是其他的一些情况,比如看到的物体不是脸,这时,起初的预测就会被否定,不会引起具体的猜测了,主管识别物体的那个皮层会尝试打开其他的特征开关,试图理解为其他的物体。如果怎么也找不到正确的预测,那么大脑就会完全陷于识别的思考之中,抑或顿悟,抑或放弃,研究表明,顿悟将引起上文所述的强烈的阶流式预测。而放弃代表着我们不再关心他具体是何种物体,也许只是当作一幅抽象画来欣赏。
如果将某个皮层作为一个电路模块,那么它可绘制成类似于以下基本形态的结构:
本皮层区域
序列名
前馈通路
开关选通号
上级反馈
运动输出*
下级前馈
向下反馈
*运动输出可选
皮层区域模块化图示
如果皮层区域间的传播方式基本确定了,那么皮层内部的结构应该是什么样的?
下文将试析皮层内部的结构与处理方式
七、 垂直柱理论及其电路实现
除了从横向上看,大脑皮层可分为六层之外,我们也发现了位于一特定柱形(斜柱形)细胞之间存在很强的信号传递关系,我们称这个结构为垂直柱结构,支持单一皮层算法的蒙卡斯尔理论指出,垂直柱是皮层的基本计算单位,也就是记忆——预测模型的基本单位。它的结构可如图所示
自下而上的特征信息传递过程
由下级皮层区输入的信号先到达第四层——主要输入层,顺带形成第六层的连接,然后向上投射到第二层和第三层的细胞,当一个垂直柱向上投射信息时,第二层和第三层中的许多细胞会向上级皮层区域的输入层伸展轴突,将自己的兴奋信号传输给上级皮层区。其中,第二层区域在输入有信号且垂直柱选通时输出,即预测内输出。第三层区域在有输入信号且未选通时输出,即预测外输出。这样此层垂直柱报告给上级的是两套数据——预测检验数据和预测外数据。
自上而下的特征信息传递过程
上级层的L6向此层的L1投射信息,L1中的轴突延展很长的区域,因此有激活下面许多垂直柱的潜能。L2,L3,L5的细胞都在L1层有树突,即可以接受来自L1的信号,L2,L3在L5处形成突触,从而人们认为它们能激活第五层和第六层细胞。
丘脑参与的延时链与肌肉控制
随时间变化的特征形成了特征序列,那么大脑就要具有专门的延时环节处理序列。人们发现皮层运动区(M1区)中巨大的L5层细胞与肌肉和脊髓中的运动区有直接的联系,这些细胞直接驱动肌肉,只要你在说话,打字,这些细胞就会高度协调的切换兴奋状态,使肌肉产生收缩。进来发现,L5层中的此种细胞在每一个区域都有分布,而不只局限于运动区。同时,值得注意的是,L5细胞的轴突一分为二,其中一支还伸向了丘脑,将信息投射到那类被认为是非特定的细胞上,这些细胞又将信息通过轴突投射回L1层。这样做,很可能是起到延时的作用。
L1的信息中有一半来自上级层的L6的投射,这部分作为序列名称,另一半是L5细胞延时 后的输出,它表征序列的当前状态。L1的输出有对L2,L3层细胞的选通控制作用,上级把序列名传递给L1层,L1层将其展开成一系列选通开关,对于L2的作用是正选通,即选通兴奋时,L2的兴奋可顺利上传,而对于L3来讲使反选通,只要选通兴奋,它的信号就不能被上传。而在选通不兴奋的时候,可以顺利上传。这样就使得L2,L3可以正确的输出预测内和预测外两组信号。
基于以上神经生物学上的依据,我们将一个垂直柱模型转化成如下的电路模型。
L4层的星形细胞对应于与门,对下级皮层不同垂直柱的输入作合并处理。与门输出分两路,分别通向L2的正选通三态门和L3的反选通三态门。(虽然严格的讲,三态门在控制端禁止时成高阻态,而本文作“0”处理,但功能相似,故仍沿用此词)三态门的控制信号由译码器输出控制。译码器同时接受上级的反馈信号和序列的延时信号。译码器的另一条输出通至L5层细胞,信号一分为二,一个方向通向延时器,另一个接通运动输出。
基于以上的垂直柱模型,我们可以将一个皮层的整体情况如图示:
每个“垂直柱”都对上级有输出,这个输出在上级的L4通过与门整合。
上级的输出通过译码器展开,用于控制每一个三态门。
译码和延时可以合并起来并通过计数型序列信号发生器实现,也可通过VHDL描述。
单皮层若干垂直柱的整体图形示于下页。
这样,一个酷似大脑结构的皮层模型就构建出来了,在此基础上,我们将其封装成模块,再配合上文的层级结构,即可构建新大脑皮层的整体结构。
顺带提一下,用与门代替星形细胞具有一定风险,因为它几乎没有容错性能,更为严格的方式是加权的部分与操作,只要到达一定域值就可输出。这要看具体的运行情况来决定。
单垂直柱结构等效电路图
单皮层等效电路总图
八、 FPGA构建人工智能体系的优势和劣势
FPGA运行的是数字逻辑,它的运行速度可以比神经元的传输速度快几十万倍。同时,FPGA是逻辑可移植的,而大脑的记忆不可移植。我们可以造出起初就具有很高智商的机器,而不用重新训练。再次,人脑的结构是进化而来,并不是最优化的,而且不可改动,而FPGA是人工的,其结构可以任意修改。最后是成本问题,一片FPGA的成本在几十美元左右,完全可以利用于各种消费领域,走进千家万户。
FPGA的缺陷主要体现在以下几方面:
逻辑智能一次性烧写。即在运行之前就要将所有确定性逻辑烧写到芯片中。然而,人脑却能够根据需要搭建新的神经突触。这个差别使得我们对FPGA的学习能力有所质疑。不过最坏的打算是他对新事物没有学习能力,但是可以通过烧写到芯片上的旧有记忆工作。利用它进行语音识别,图像处理等等都是可以的。补救的办法也很多,比如可以通过其内建的RAM(数据存取器)将译码逻辑存储到其中,进行动态的译码,只不过电路结构要进行一定修改。
其次是规模问题, 一个神经元所含的树突数量可达几千个,其轴突可延伸数千米之长,然而,一个数字电路们的输入端一般只多几十个,其布线也不可能向轴突的伸展那么容易。并且对于一个芯片,它的门电路总数相比大脑神经元来讲还是过少,不在一个数量级上。一个是百亿级,一个是十万级。何况十万中可能还要根据具体结构打折。不过人脑记忆了太多的信息,有太多的处理区域,而一个专用的芯片没必要那么复杂。做视频识别只需保留视觉处理就行了,这么看来,现在的规模是够用的。令人乐观的是,FPGA是一个通用电路,是一个实验性平台,一旦验证模型有效,大批量的专有芯片将产生,他们会有更大的规模和更优化的结构。可以说,微电子技术已经准备好了,等待的是新大脑皮层模型和原理的确定。
再次,是神经元的数字化问题,有人指出神经元的信号是模拟量,是不能数字化成“0”,“1”对待的,必须承认,以这种方式转换成数字信号,必将产生信息泄露,但是并不一定影响其工作。比如我们用一台黑白的打印机打印一幅彩色照片,黑白打印机只会在特定区域打点和不打点,即使是灰度也是通过打点的疏密模拟的。那么我们打印出的照片能够观看吗?可以的,虽然远远没有彩色的好看,但是我们仍然可以分辨上边的许多信息。也许将人脑数字化之后会产生相同的结果。
九、 基于FPGA的人工智能实现路线图
<1> 实现可行性分析,即证明所有逻辑都可以通过数字电路实现.
<2> 实现垂直柱模型,可以对标准输入做出正确反应.
<3> 实现多层结构,能做出对标准输入的恒定表征.
<4> 实现自主学习与训练,可以通过外界输入更改译码逻辑
<5> 实现对于音频的识别
<6> 实现简单的输出控制
<7> 实现对简单视频的识别
<8> 逻辑结构优化,使之精度提高
<9> 制作实用化产品样机
<10>进行更多领域的更复杂的信号训练,研究并改进其智能能力.
十、将来智能机器的想象
智能机器不必像人一样,具备两只眼睛和两个耳朵,根据大脑皮层统一算法原理,我们可以利用先进任何的传感设备作为输入,因为他不需要做特定驱动,同时,他的输出也不一定是身躯,而也许是某架无人飞机的操纵杆或者流水线上的机器手臂。
然而,他的核心处理结构应该和新大脑是类似的,比如有多层处理结构和记忆——预测能力。
他的硬件只是提供了智能的基础,它的有价值的输出是通过训练得到的,要想让他为我们服务,我们必须对它进行训练。
机器没有人一样的成长经历,因此,很可能没有人一样的情感,它的思维和行为方式可能于我们人类完全不同,但是我们需要智能机器,就像今日的家用电器一样,在不久的将来,人工智能设备将遍布于世界的每个角落,走进千家万户,走进我们的生活。
请大家相信,如果按照正常的研究阶段来推断,我们离目标并不遥远,也许只需等待几年抑或十几年,这个领域即将腾飞。如果有兴趣,不妨投入到这个领域的建设中来,相信你将大有发展。让我们大家拭目以待! |
|