嵌入式离线语音识别根据识别范围可分为固定词识别与有限词库识别两种类型,其特性对比如下:
一、固定词识别
定义:仅支持预定义的固定短语或指令,如“打开空调”“关闭灯光”等。
优点:
响应速度快:因仅需匹配预设词条,处理延迟可控制在10ms以内8;
硬件要求低:可在低算力MCU(如RISC-V架构)运行,功耗低于1W;
抗干扰性强:在噪声50dB环境下仍能保持90%以上识别率。
缺点:
灵活性差:仅支持固定句式,用户说“关灯”能识别,但“把灯关了”无法响应;
扩展成本高:新增指令需重新烧录固件,无法通过OTA升级。
典型应用:智能开关、遥控器、小家电控制等简单指令场景。
二、有限词库识别
定义:支持本地存储的数百至数千条词条,可识别连续短句(如“调到25度”)。
优点:
场景适应性提升:支持多指令组合,如“卧室灯调暗一半”;
隐私保护:语音数据无需上传云端,满足医疗、金融等敏感场景需求。
缺点:
资源消耗大:需至少128KB RAM存储声学模型,硬件成本提高30%;
识别率受限:词库超过500条时,识别准确率下降至85%以下;
不支持语义理解:无法处理“太热了”等隐含指令,需明确表述为“降低温度”。
典型应用:车载语音控制、智能家居中控设备、工业仪器操作等
找了一个固定词识别的开源项目,大家感兴趣可以去看看
https://gitcode.com/gh_mirrors/how/howl
|