视频分析,英文叫IVS(Intelligent Video Ssytem),视频分析技术就是使用计算机图像视觉分析技术,通过将场景中背景和目标分离进而分析并追踪在摄像机场景内目标。用户可以根据的分析模块,通过在不同摄像机的场景中预设不同的非法规则,一旦目标在场景中出现了违反预定义规则的行为,系统会自动发出告警信息,监控指挥平台会自动弹出报警信息并发出警示音,并触发联动相关的设备,用户可以通过点击报警信息,实现报警的场景重组并采取相关预防措施。
视频分析其实是仿生学的一个分支,也是人工智能的一个分支。仿生学技术,就意味着要模仿生物的方法去实现一定的功能,那么这种生物的弱点也就全部引进;既然是人工智能,就必然意味着是根据统计得出结果的方法,这里面没有捷径可言,只能踏踏实实的慢慢改进,不断的根据更多的样本改进。
视频分析根据人眼的生物特性来建立一个基本的运行思路,即采集、预处理、处理、动作。人眼睛作为传感器,实时、真实的将图像反映到大脑中,这时候人眼生成的图像是一种复合的图像,即将清晰的焦距成像(眼睛中心)和旁边的稍虚的图像合成,传送给大脑。而大脑并不是对所有的图像做全部实时分析,而是先采用多层分级的处理过程,首先将背景、缓慢移动、距离最近的目标的分辨率最低化,其意义就是忽略了很多细节,比如你可能只关心是个男人还是女人,他、她的外形、高矮、胖瘦、衣服颜色等,而不是首先关心他、她的长相细节,这就是所谓的熟视无睹。然后对于某些突出的细节(感兴趣的区域)在进行二次分析,获得细节的东西,然后根据平生所学的规则,进行判断,作出动作。
当前的视频分析系统采用了仿生学,但是技术条件的限制,还无法完全模拟人眼。第一,摄像机生成的图像全部是很清晰的图像,图像算法必须首先处理所有的像素,这就意味着一个很高的计算量,这个计算首先需要分割图像,将可以的运动分离出来,然后再对这个运动目标进行预处理,根据其运动特征判断其到底是一个误报还是一个真正的运动目标(真正报警或虚警)。一旦把无报警分离出去,剩下的事情就好办了,那就是所谓的目标分类,分类很多时候需要分析非常多的像素(上百个像素),才能利用“所谓的”高级算法将目标分类为刚性目标和柔性目标,再通过更细致的算法(行走的行为方式和肢体动作)来判断这是动物还是人类,到此为止。
在仿生过程中,当前的视频分析算法有轻有重,所以对于单位像素的计算能力各个厂家都不一样,所以你们就可以看到有的产品性能很好(固定高度目标的识别率/距离),有的不好。因为大部分厂家采用了CIF分辨率的像素来计算,这样大大降低了所需的计算能力,但是同样大小的人在CCD上成像像素数量也成倍地减少。这样同样的算法,采用4cif分辨率的识别距离要高很多。
除了处理的像素数量多少,还有个处理速度的问题,有个算法由于优化/简化问题,只处理10帧/秒,那么识别的速度和能力也会大打折扣,比如快速跑动慢速移动的目标可能就检测不到。如果要做实时处理4cif,那就需要非常优秀的算法,否芯片的计算量还是挺大的。
另外,还有一个很大的问题,就是景深校准的过程。视频分析的理论基础是现行的光学特性,也就是说人离摄像机越近,成像越大;离摄像机越远,成像越小。这种理论在国外的实践中,由于采用了较好的镜头,变形很小,识别能力还是较高的;但是一旦到了中国,我们的摄像机一般都是为了降低成本,采用了较便宜的镜头,而这种镜头变形很大,对于人眼来讲,可以适应。但是对于识别算法来讲,变形后的像素数量、高度没有比例关系,可能在光轴上成比例,而在侧面、镜头近处变形的厉害,那么识别算法就会得出高2米的人,或者 很怪异的图像边缘,识别性能就会大打折扣。所以除了采用3点一线的矫正方法外,其实还需要考虑镜头的性能以及对于不同城厢区采用不同的大小、速度规则,来提高识别率。当然如果,监视的区域凹凸不平,也需要在景深里进行相应调整,毕竟同一距离的目标,站位高低所获得像素数量也不一样。
谈到人工智能,那就是统计算法,那么必然需要时间累积才能无限逼近真理。但是视频分析的防区不可能给你这么宽的区域、这么长的时间来累积,获得优质结果,那么识别算法的预处理过程其实就显得尤为重要。创新的算法是在预处理过程就引入先进的概率算法,降低误报处理,这样能够在1-2秒钟之内完成准确的识别。
其实,对于统计算法,其最根本的基础是需要某个基础准绳,即背景无运动。所有的识别算法都是基于一定的条件来设计硬件平台的。如果有大量背景运动,系统就没有充足的计算能力来判断所有的情况,当然目标分类也就无从谈起了,结果就是大量的误报警出现。
如果说视频分析技术在几年前在处在实验室阶段的话,那么现在的视频分析技术分明已经走入了成熟的商用阶段,优化的算法、成熟的技术,为客户更高级别的安全保护。