MaixSense R329开发板AIPU捕获摄像头视频并进行实时分类

x1816 发表于 2021-9-21 00:08

本帖最后由 x1816 于 2021-9-21 00:10 编辑

上期我们实现了通过R329开发板的摄像头捕获视频的功能。本期我们更进一步，看看通过AIPU如何将捕获的视频送入分类模型，并实时给出分类结果。

操作方法

官方给了一个编译好的zhouyi_cam测试程序，用run.sh就可以调用。 
首先把zhouyi_test.tar.xz传输到开发板上，用tar xf zhouyi_test.tar.xz解压缩得到zhouyi_test目录。 
给里面的run.sh文件加上可执行权限。 
执行./run.sh，或者直接执行./zhouyi_cam aipu.bin unsigned启动分类测试程序。 
  
程序会不断刷新摄像头采集到的图像，并对图片进行预处理，送分类模型，获取并解码分类结果的操作，实时输出到终端上。 


 

分类结果 
小液晶屏上也会实时显示采集到的图像和对应的分类结果。 
从网上随意找了几张图作为被测物体，通过高分辨率大屏显示。 
 

模型都分类正确了。 
 一个相对不常见的彩色键盘，拍摄局部就能正确识别成computer keyboard。

 

若干个气球，正确识别成balloon。

 

小的指针式时钟，正确识别成analog clock。

 

喵星人，识别成perslan cat（波斯猫），cat是肯定对了，专家们可以看看品种识别对了吗。

 

 

故意刁难一下模型，拍一个它不认识的物体，分类错了。 
这是一个常见的科学计算器，拍的倒是挺清楚的。模型可能没见过这个，识别成了modem（调制解调器），错的很离谱。

 

 
小结 
在R329上运行现成的模型还是挺方便的，效果也不错，实时视频分类能有约20fps的帧率。这次测试也体现了现有神经网络的特点： 
（1）只要训过的类别，可以以非常高的准确率识别出来。完全不输人类（猫的那张图，估计不是每个人类都能轻松指出品种的） 
（2）没训过的类别，可能会错的很离谱。

Jacktang 发表于 2021-9-22 08:50

训过识别的准确率还是挺高的

 

这个训的基本原理是有什么特殊优缺点呢

x1816 发表于 2021-9-22 21:58

Jacktang 发表于 2021-9-22 08:50
训过识别的准确率还是挺高的

 

这个训的基本原理是有什么特殊优缺点呢

 

训练需要采集对应类别的数据，例如前面的keyboard能正确识别的，是因为模型已经见过不同类型的键盘的图片了，并且知道它属于keyboard这个类别。

计算器没见过，可能类别都没有，模型的结果就错的比较离谱了。

这和人类还是有很大差别，人类见到不认识的类别，会有“不认识” “不确定它是什么”的概念，目前的模型是没有的。

页: [1]

电子工程世界-论坛's Archiver

MaixSense R329开发板AIPU捕获摄像头视频并进行实时分类