语音识别的基本过程

fish001

语音识别的基本过程 [复制链接]

本帖最后由 fish001 于 2018-8-27 22:26 编辑

计算机语音识别过程与人对语音识别处理的过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为3部分：
1、语音特征提取：其目的是从语音波形中提取出岁时间变化的语音特征序列
2、声学模型与模式匹配：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型（模式）进行匹配与比较，得到最佳的识别结果
3、语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络，或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。
声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。建立声学模型的目的是提供一种有效的方法计算语音是特征矢量序列和灭个发音模板之间的距离。声学模型单元大小（字发音模型、半发音模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响，必须根据不通语言的特点、识别系统词汇量的大小决定识别单元的大小。
语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定语义。

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法[1]。

（1）基于语音学和声学的方法

该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

第一步，分段和标号

把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步，得到词序列

根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

（2）模板匹配的方法

模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（hmm）理论、矢量量化（VQ）技术。

动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：Dynamic Time Warping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。