一、智驾是咋工作的
车辆搭载设施设备及机系统包括:
1、感知系统
各种传感器如摄像头、雷达等,用以采集车辆周边的物体(如车道标识、其他车辆、行人、建筑、植物、施工设施以及水、雪等)相关数据,这些传感器也就是我们平常说的双目摄像头(类似于人眼看图立体感)、高清摄像头、激光雷达(如速腾聚创、法雷奥、图达通、禾赛、华为等)、毫米波雷达(以前都说是3D,现在很多流行4D),他们共同的一个指标就是分辨率,或者清晰度,只不过大家分别使用了不同的波段以及主动还是被动的区别,所谓激光雷达多少线,也就是在其视域范围内,横向上画面被切割成多少个矩形长条,并最终由该矩形长条组成一个画面而已。相对而言,激光雷达、毫米波雷达分辨率是要显著低于摄像头的,同时却在穿透力方面由于摄像头(比如雨雾天气条件下)
2、识别系统
传感器采集到的数据进行识别,毕竟系统自己不像人一看一片绿的就知道是树或草坪,所以需要有很多知识预先存在系统里进行比对,从而形成用于决策的有效信息,大家经常听到的比如BEV、OCC、GOD等基本都是在这个环节里起作用的,其比较依赖车机端图形及自然语言算法处理能力,也就是GPU、NPU,也就是市面上言必称OrinX芯片、地平线征程系列、黑芝麻华山武当等系列
3、决策系统
根据识别系统获得信息,来判断到底是该行停进止或者拐弯打方向盘,这个判断的依据,就看各个厂商的策略选择了,更依赖于是否有足够的数据训练出丰富、准确、可靠的依据,所以大家经常听到的比如特斯拉、华为、百度等说自己有多少多少EFLOPS云端算力,光有算力还不够,还需要海量的数据,也就是有足够的车在路上跑,边跑边采集数据,并将这些数据脱敏处理后交由云端算力用于训练学习,形成最新的先验信息;毕竟像中国这样一个地大物博、幅员辽阔、人口密度超大、交通工具种类齐全的国家,行车规则是不是足够丰富、足够覆盖度,基本可以拿来验证一个智驾体系是否完善了。
4、执行系统
这个就比较好理解,就好像人眼、耳感知周边信息后,大脑要思考分析判断,并决定人该怎么行动一样,最终还是需要人的肢体等部位做出相应的动作来的。智驾车辆同样如此,最终需要决定转向机构、制动系统以及动力系统该如何动作,是转向、收油刹车还是加速,甚至同步执行几个动作?
上面说的都是半年前乃至当下部分厂商正在使用的一套过程,在决策系统里,各类规则分门别类装在车机系统里,识别到相关信息后再来按照规则去一个个的匹配,匹配不到就提醒要人接管(当然也有一些会匹配错导致做出让你意想不到的动作,比如直接冲出去。。。)
二、端到端是啥
端到端就在于这个选择规则的过程不再是按以前规则一样的匹配了,而是将大模型放到车机上,有了识别信息之后(甚至不需要信息而直接用数据)再由大模型自己去学习、选择,形成决策。在IT领域,有点类似于以前是一条SQL去精确匹配,得用「=」,现在用「like」去匹配了,当然那,这个匹配在大模型里显然不是这么简单。
换个说法,以前可能需要大量的成千上万甚至上百万的模型用于识别,现在不这么玩了,直接各类传感器咔嚓感知,形成一个画面,至于画面理由啥,是不是要先全部识别出来都不重要,直接拿这个画面去规则库里用大模型去匹配,整个感知识别决策过程是不是看起来省了步骤节约了时间?而且好像也没有了精确匹配不到结果的现象了。
或者我们再举个可能不是很严谨的例子,我们人眼看到前面一个东西一晃,应激反应就是直接躲避。这就有点类似于端到端。而传统的正常情况下是看到一个东西晃过了,就定眼看,哦,是个人、是个衣服、是个正在发生的事故车,我是不是该躲避,大脑迅速运转去识别、决策并指挥自己手脚。
不过大模型选择也不是一件容易的事情,就好像同样一套规则库,大模型有1000个参数去要调制,不同的厂家调制的差距可就天差地别了。所以就需要大量的懂大模型的(其实即便放眼全球也没多少研制大模型的,行业里所需要的基本就是数学功底好看得懂大模型并能够使用的工程人员)人来调参,参与调参的机会越多月可以成为行业大拿。
当然,这个端到端,如果再进一步细分又可以分为感知层面的端到端和决策层面的端到端。前者是感知到识别过程中使用了大模型识别,后者则是传统识别之后使用大模型进行决策。说白了拿人做例子来讲,就是一眼看到个东西,是凭印象觉得是啥,还是知道是啥了该咋办的过程。
|