文 摘 提出了一种新的以基音周期为基础的分析方法。对语音信号,首先估计基音轨迹,即基音随时间的变化规律。然后根据这一轨迹对语音信号进行“基音调整”,将原始的、具有时变基音周期的信号转化为一个具有恒定基音周期的信号。这样就可以采用时不变的变换,例如MLT(modulated lapped transform)等。由于这些变换是基音同步的,其变换结果代表了语音的子带信号,具有明确的物理意义,便于后续的量化编码。这一分析方法应用于低数据率语音编码时,可以提高压缩比率或在同等数据率上提高合成语音的质量。
关键词 基音调整; 语音分析; 语音压缩
分类号 TN 911Pitch-adjusted speech
analysis method YANG Huimin, CHEN Hongyi, SUN Yihe
Institute of Microelectronics,
Tsinghua University, Beijing 100084, China Abstract A new speech analysis method based on pitch period is presented. The pitch contour, i.e., the time-varying pitch period, is first estimated from the speech signal. Then the speech signal is pitch-adjusted according to this pitch contour, where the original signal with time-varying pitch period is converted to a signal of constant pitch period. Time invariant transforms, such as, modulated lapped transform, etc. can then be performed on the signal of constant pitch period. Since those transforms are pitch synchronous, the outputs of the transforms represent the subband signals of the speech and are of clear physical meaning, which facilitates the subsequent quantization and coding. Therefore, the analysis method can be used in the low bit rate speech coding allowing a higher compression ratio or improved reconstructed speech at the same bit rate.
Key words pitch-adjusted;speech analysis;speech compression 在低数据率语音编码算法中,语音分析的基本时间单位为帧。许多标准算法中的语音参数都是按帧估计的,例如,线性预测(LPC-10e)[1]、码激励线性预测(CELP)[2]和改进的多带激励(IMBE)[3]。这些参数分别反映声道特性以及声门激励特性。由于声门特性随时间的变化较为迅速,高于帧速率,因而,按帧估计的声门激励参数常常不能反映实际的情况,导致从这样的参数中合成的语音很难保持与原始语音相同的清浊音程度。
在以基音周期为基本分析单位的算法中,如波形插值算法[4~6]和基音同步的小波表示[7]等中,声门激励由顺序连接的“基音周期波形”(PCW)组成。其优点在于,原始语音的清浊音特性直接反映在PCW随时间的变化中,便于压缩编码。
目前的基音同步分析方法也有一定的缺陷。它们通常对语音信号分段截取后按顺序排列做为PCW,语音合成与语音分析的模型是不一致的。本文介绍了一种新的基音调整的语音分析方法,其保持了以基音周期为分析单位的优点,克服了分段截取的弊病。同时举出一种采用MLT (modulated lapped transform)[8]的参数分析流程,这一参数与波形插值算法的参数具有同样的物理意义,可以采用类似的量化编码方法。对实际语音信号的初步统计结果显示,新的模型参数能实现更高效的压缩编码。
1 基音与语音的准周期性
1.1 语音模型
语音信号的“准周期性”反映在两个方面,即基音周期的时变性和相邻周期语音信号波形的时变性。为便于对这两方面特性进行分离,采用调幅-调频(AM-FM)信号来表示语音信号:
其中,ak(t),kφ(t)分别代表第k个谐波的时变幅度和相位。时变相位是时变基频fI(t)对时间t的积分: ? 式中,下标I用于强调瞬时基频(instantaneous)的概念。对特定的语音信号,有无穷多种可能的幅度和相位组合。本文只讨论幅度和基频均为窄带信号的情况,即它们的带宽都远小于基频的短时平均值。
如果能够预先估计瞬时基频fI(t),并计算出相位轨迹的逆函数,就可以通过“基音调整”得到如下信号(在本文中,sw(t)用来表示基音调整后的s(t)): 其中,PT为基音周期。在这一信号中,基频的时变性已经去除,只保留了幅度的时变性。因而,可以将它看作一个固定“周期”的准周期信号,而且,它的周期性程度要比原始语音强。采用归一化的自相关函数为测度,浊音信号的周期性程度提高了约10%~30%。 1.2 实现考虑
对离散的语音抽样,应用上述分析的具体过程如下: 首先估计离散的基音周期[9],这些估值可以看作是一个基音周期关于时间的连续函数的抽样值,因而对这些估值进行插值,就可以得到基音周期关于时间的变化轨迹。根据这一轨迹,对原始的语音信号做不规则的重新抽样,就得到了基音调整后的信号。
在语音分析过程中,采用了加窗的sinc函数作为重新抽样的插值函数。合成语音时,从基音调整的信号中恢复原始语音的方法与分析时相同。理论上这样的重新抽样与恢复过程会引入误差。实验的结果显示,使用较短的插值函数就可以得到满意的信噪比。例如,选用TIMIT语音数据库中总长度为13.9s的语音数据(男声7.1s,女声6.8s),抽样率8kHz下,窗长取12个抽样点,经重新抽样再恢复的语音与原始语音相比,段信噪比(SegSNR)为64dB。
2 基频恒定信号的参数提取
传统的语音分析方法中,利用浊音信号的周期性时,由于基音的时变性,只能采用自适应的参数提取方法和有损的语音模型。例如,在正弦波编码中[10],采用自适应窗长和峰值检测; 在波形插值编码中[4~6],采用自适应窗长和位置及基音周期波形对齐等。同时,由于基音的时变引起的谱分量与噪声混合在一起(特别在频谱的高频段),难以分辨,导致错误的结果。这些都属于模型固有的误差,即使数据率提高甚而趋于无穷,也无法实现语音的无损重构。本文中提出的分析方法,是作用于基音调整后的、具有恒定的基音周期的信号,因此,不需要自适应的参数提取。对固定基频的信号,可以设计与其谐波位置一致的子带编码器,这样得到的参数具有明确的物理意义。
2.1 参数的含义
考察信号sw(t)的傅里叶谱Sw(ω),可得到
其中,P为基音周期(以抽样点数为单位),是基音调整后的时变幅度的傅里叶谱。上式表明,语音信号谱Sw(ω)是时变幅度谱频移到相应谐波位置后的组合。因此,假设时变幅度是带宽为1/(2P)的窄带信号,那么与谐波位置一致的子带滤波器作用于语音信号,可以得到该谐波的时变幅度。例如,语音信号输入到中心频率为k/P,带宽为1/P的理想带通滤波器,输出信号为调制的时变幅度。这一输出经频移后就得到时变幅度参数。
考察采用“分段截取”构造二维信号的波形插值算法,其参数是本文提出的模型参数的近似估计。在波形插值算法中,参数是每个基音周期波形的DFT系数。得到的频域表征有严重的不连续性和块效应,小的量化误差会引起合成语音的严重失真。而在新的模型中,时变幅度ak(t)是一个连续信号,对量化误差不敏感。只有假定时变幅度ak(t)为分段常数,即在每个基音周期长度内维持恒定时,新的模型参数才退化为波形插值算法中的参数。 2.2 MLT参数提取
为了避免块效应,本文采用MLT[8]进行参数提取。MLT的优点在于,首先它是重叠的变换,避免了变换区间边界的不连续性,对量化误差的敏感程度低。另外,从滤波器组的角度看,它是基于原型FIR滤波器的余弦调制,而且没有冗余和失真。根据Balian-Low[8]理论,不存在没有冗余的、基于复指数调制的准确重建滤波器组。余弦调制的MLT的输出具有上节中讨论的“参数为时变幅度”的物理意义。
本文采用的MLT是这一类变换中经常使用的一种,正变换定义为
其中,hk[n]是一个窗函数h[n]的余弦调制, 窗函数是对称的,长度为2P,即两个基音周期; 而且满足: h2[n]+h2[P-n-1]=1(例如半正弦波)。反变换定义为 从滤波器组的角度看,正变换的结果是最大降抽样的、余弦调制滤波器的输出。由于调制常数和滤波器的个数与输入信号的周期一致,滤波器的通带范围与语音的谐波结构一致,示意图如图1所示。实线代表周期P为10个抽样点的人工输入信号,虚线示出第3个滤波器(k=3)的输入信号,原型滤波器假定为理想低通。可以看到,每个滤波器滤出输入信号的半个谐波。这一输出经最大降抽样后,其频谱在数字频率上被扩展P倍,并移动到以零频率为中心的位置。这也就是MLT的第k路输出ck[m]的频谱,其中m表示时间。
|