语音唤醒的触发机制是什么？

wangerxian

语音唤醒的触发机制是什么？ [复制链接]

想自己训练一个语音唤醒的模型，目前有两个问题。
问题如下：

1、怎么触发采集语音数据？比如我要开始采集语音数据，放到模型中去识别，那么我该什么时候进行采集？因为声音是一直存在的，我不能每一段时间采集一次放到模型中吧？所以我该如何触发采集语音数据？

2、采集多久语音数据？这是我设想的，唤醒词最慢的人说只需要5秒钟，那么我的超时时间就是5秒钟，当开始获取语音数据时，再起一个定时器，接收到的语音内容小于某值（也就是说话结束）我把语音数据拿到模型去识别。是这样的吗？

PS：AI真好玩，一起来玩呀~

吾妻思萌

个人思路实时监听判断输入是不是关键字，例如小爱小度如果是巴拉巴拉如果不是，没反应

吾妻思萌

你搜搜siri唤醒机制我记得网上有的～

wangerxian

吾妻思萌发表于 2023-1-12 17:13 个人思路实时监听判断输入是不是关键字，例如小爱小度如果是巴拉巴拉如果不是，没反应

实时监听感觉太费电了。我去看看语音唤醒有啥技术~

zhaoyanhao

不是中断吗，哈哈哈

shower.xu

音量唤醒，后面关键词识别

wangerxian

zhaoyanhao 发表于 2023-1-12 17:40 不是中断吗，哈哈哈

那是不是还得有专门的拾音芯片？

wangerxian

shower.xu 发表于 2023-1-12 21:50 音量唤醒，后面关键词识别

达到某种音量，然后唤醒？

zhaoyanhao

本帖最后由 zhaoyanhao 于 2023-1-13 10:15 编辑

wangerxian 发表于 2023-1-13 10:05 那是不是还得有专门的拾音芯片？

有可能，刚毕业做单片机键盘的时候，我就觉得扫描太费电太占资源，就想找个按键输入中断，检测到中断信号后再扫描。当然了，我这个想法可能很low

wangerxian

zhaoyanhao 发表于 2023-1-13 10:12 有可能，刚毕业做单片机键盘的时候，我就觉得扫描太费电太占资源，就想找个按键输入中断，检测到中断信 ...

我去看看别人的方案吧~

chunyang

语音采集是连续的，连续采集连续识别。

wangerxian

chunyang 发表于 2023-1-13 14:41 语音采集是连续的，连续采集连续识别。

那我该以什么为中断？比如我连续采集5秒，但是我在第4秒说话，要说两秒，那这一段只能识别到前1秒说话的内容，后1秒到下一个采集周期去了。

chunyang

wangerxian 发表于 2023-1-13 15:29 那我该以什么为中断？比如我连续采集5秒，但是我在第4秒说话，要说两秒，那这一段只能识别到前1秒说话的 ...

你还是没明白啥是“连续”，既然是连续，何来的“唤醒”？窗口法在此不成立。即使是“唤醒”，也不是语音处理部分的唤醒，而是其它无关部分，语音识别及前端电路部分必须连续工作。

吾妻思萌

https://m.baidu.com/sf?pd=topone_trustpaper&resource_id=55858&word=解密“嘿!Siri!”语音唤醒原理&ext={"url":"https:\/\/m.sohu.com\/a\/508182132_12009990

wangerxian

chunyang 发表于 2023-1-13 17:10 你还是没明白啥是“连续”，既然是连续，何来的“唤醒”？窗口法在此不成立。即使是 ...

但是数据丢入神经网络模型，只能是一段一段的。

chunyang

wangerxian 发表于 2023-1-14 14:52 但是数据丢入神经网络模型，只能是一段一段的。

段之间的间隔足够小，那就是连续的。

Gen_X

一般唤醒前，仅断续采集唤醒词的长度，声音连续时采样次数较多，但还是断续分析“唤醒词”的存在，没有声音就断续休眠，有声音了采集就多些，知道有唤醒词然后变成较长的“正常采集”和分析。

freebsder

专门的外设负责监听和识别。低功耗的。

wangerxian

freebsder 发表于 2023-2-9 15:26 专门的外设负责监听和识别。低功耗的。

那这种外设是不是唤醒词需要定制。

freebsder

wangerxian 发表于 2023-2-10 09:10 那这种外设是不是唤醒词需要定制。

相当于一个专用的协处理器，里面会有接口让你干。

语音唤醒的触发机制是什么？ [复制链接]

最新回复

点评

点评

点评

点评

点评

点评

点评

点评

点评

点评

点评

浏览过的版块

技术导师勋章