6780|2

161

帖子

0

TA的资源

五彩晶圆(初级)

楼主
 

基音调整的语音分析方法 [复制链接]

文 摘 提出了一种新的以基音周期为基础的分析方法。对语音信号,首先估计基音轨迹,即基音随时间的变化规律。然后根据这一轨迹对语音信号进行“基音调整”,将原始的、具有时变基音周期的信号转化为一个具有恒定基音周期的信号。这样就可以采用时不变的变换,例如MLT(modulated lapped transform)等。由于这些变换是基音同步的,其变换结果代表了语音的子带信号,具有明确的物理意义,便于后续的量化编码。这一分析方法应用于低数据率语音编码时,可以提高压缩比率或在同等数据率上提高合成语音的质量。
  关键词 基音调整; 语音分析; 语音压缩
  分类号 TN 911
Pitch-adjusted speech
analysis method
YANG Huimin, CHEN Hongyi, SUN Yihe
Institute of Microelectronics,
Tsinghua University, Beijing 100084, China
  Abstract A new speech analysis method based on pitch period is presented. The pitch contour, i.e., the time-varying pitch period, is first estimated from the speech signal. Then the speech signal is pitch-adjusted according to this pitch contour, where the original signal with time-varying pitch period is converted to a signal of constant pitch period. Time invariant transforms, such as, modulated lapped transform, etc. can then be performed on the signal of constant pitch period. Since those transforms are pitch synchronous, the outputs of the transforms represent the subband signals of the speech and are of clear physical meaning, which facilitates the subsequent quantization and coding. Therefore, the analysis method can be used in the low bit rate speech coding allowing a higher compression ratio or improved reconstructed speech at the same bit rate.
  Key words pitch-adjusted;speech analysis;speech compression
  在低数据率语音编码算法中,语音分析的基本时间单位为帧。许多标准算法中的语音参数都是按帧估计的,例如,线性预测(LPC-10e)[1]、码激励线性预测(CELP)[2]和改进的多带激励(IMBE)[3]。这些参数分别反映声道特性以及声门激励特性。由于声门特性随时间的变化较为迅速,高于帧速率,因而,按帧估计的声门激励参数常常不能反映实际的情况,导致从这样的参数中合成的语音很难保持与原始语音相同的清浊音程度。
  在以基音周期为基本分析单位的算法中,如波形插值算法[4~6]和基音同步的小波表示[7]等中,声门激励由顺序连接的“基音周期波形”(PCW)组成。其优点在于,原始语音的清浊音特性直接反映在PCW随时间的变化中,便于压缩编码。
  目前的基音同步分析方法也有一定的缺陷。它们通常对语音信号分段截取后按顺序排列做为PCW,语音合成与语音分析的模型是不一致的。本文介绍了一种新的基音调整的语音分析方法,其保持了以基音周期为分析单位的优点,克服了分段截取的弊病。同时举出一种采用MLT (modulated lapped transform)[8]的参数分析流程,这一参数与波形插值算法的参数具有同样的物理意义,可以采用类似的量化编码方法。对实际语音信号的初步统计结果显示,新的模型参数能实现更高效的压缩编码。

1 基音与语音的准周期性
1.1 语音模型
  语音信号的“准周期性”反映在两个方面,即基音周期的时变性和相邻周期语音信号波形的时变性。为便于对这两方面特性进行分离,采用调幅-调频(AM-FM)信号来表示语音信号:

其中,ak(t),kφ(t)分别代表第k个谐波的时变幅度和相位。时变相位是时变基频fI(t)对时间t的积分:
?
式中,下标I用于强调瞬时基频(instantaneous)的概念。对特定的语音信号,有无穷多种可能的幅度和相位组合。本文只讨论幅度和基频均为窄带信号的情况,即它们的带宽都远小于基频的短时平均值。
  如果能够预先估计瞬时基频fI(t),并计算出相位轨迹的逆函数,就可以通过“基音调整”得到如下信号(在本文中,sw(t)用来表示基音调整后的s(t)):
其中,PT为基音周期。在这一信号中,基频的时变性已经去除,只保留了幅度的时变性。因而,可以将它看作一个固定“周期”的准周期信号,而且,它的周期性程度要比原始语音强。采用归一化的自相关函数为测度,浊音信号的周期性程度提高了约10%~30%。
1.2 实现考虑
  对离散的语音抽样,应用上述分析的具体过程如下: 首先估计离散的基音周期[9],这些估值可以看作是一个基音周期关于时间的连续函数的抽样值,因而对这些估值进行插值,就可以得到基音周期关于时间的变化轨迹。根据这一轨迹,对原始的语音信号做不规则的重新抽样,就得到了基音调整后的信号。
  在语音分析过程中,采用了加窗的sinc函数作为重新抽样的插值函数。合成语音时,从基音调整的信号中恢复原始语音的方法与分析时相同。理论上这样的重新抽样与恢复过程会引入误差。实验的结果显示,使用较短的插值函数就可以得到满意的信噪比。例如,选用TIMIT语音数据库中总长度为13.9s的语音数据(男声7.1s,女声6.8s),抽样率8kHz下,窗长取12个抽样点,经重新抽样再恢复的语音与原始语音相比,段信噪比(SegSNR)为64dB。

2 基频恒定信号的参数提取
  传统的语音分析方法中,利用浊音信号的周期性时,由于基音的时变性,只能采用自适应的参数提取方法和有损的语音模型。例如,在正弦波编码中[10],采用自适应窗长和峰值检测; 在波形插值编码中[4~6],采用自适应窗长和位置及基音周期波形对齐等。同时,由于基音的时变引起的谱分量与噪声混合在一起(特别在频谱的高频段),难以分辨,导致错误的结果。这些都属于模型固有的误差,即使数据率提高甚而趋于无穷,也无法实现语音的无损重构。本文中提出的分析方法,是作用于基音调整后的、具有恒定的基音周期的信号,因此,不需要自适应的参数提取。对固定基频的信号,可以设计与其谐波位置一致的子带编码器,这样得到的参数具有明确的物理意义。

2.1 参数的含义
  考察信号sw(t)的傅里叶谱Sw(ω),可得到

其中,P为基音周期(以抽样点数为单位),是基音调整后的时变幅度的傅里叶谱。上式表明,语音信号谱Sw(ω)是时变幅度谱频移到相应谐波位置后的组合。因此,假设时变幅度是带宽为1/(2P)的窄带信号,那么与谐波位置一致的子带滤波器作用于语音信号,可以得到该谐波的时变幅度。例如,语音信号输入到中心频率为k/P,带宽为1/P的理想带通滤波器,输出信号为调制的时变幅度。这一输出经频移后就得到时变幅度参数
  考察采用“分段截取”构造二维信号的波形插值算法,其参数是本文提出的模型参数的近似估计。在波形插值算法中,参数是每个基音周期波形的DFT系数。得到的频域表征有严重的不连续性和块效应,小的量化误差会引起合成语音的严重失真。而在新的模型中,时变幅度ak(t)是一个连续信号,对量化误差不敏感。只有假定时变幅度ak(t)为分段常数,即在每个基音周期长度内维持恒定时,新的模型参数才退化为波形插值算法中的参数。
2.2 MLT参数提取
  为了避免块效应,本文采用MLT[8]进行参数提取。MLT的优点在于,首先它是重叠的变换,避免了变换区间边界的不连续性,对量化误差的敏感程度低。另外,从滤波器组的角度看,它是基于原型FIR滤波器的余弦调制,而且没有冗余和失真。根据Balian-Low[8]理论,不存在没有冗余的、基于复指数调制的准确重建滤波器组。余弦调制的MLT的输出具有上节中讨论的“参数为时变幅度”的物理意义。
  本文采用的MLT是这一类变换中经常使用的一种,正变换定义为

其中,hk[n]是一个窗函数h[n]的余弦调制,
窗函数是对称的,长度为2P,即两个基音周期; 而且满足: h2[n]+h2[P-n-1]=1(例如半正弦波)。反变换定义为
  从滤波器组的角度看,正变换的结果是最大降抽样的、余弦调制滤波器的输出。由于调制常数和滤波器的个数与输入信号的周期一致,滤波器的通带范围与语音的谐波结构一致,示意图如图1所示。实线代表周期P为10个抽样点的人工输入信号,虚线示出第3个滤波器(k=3)的输入信号,原型滤波器假定为理想低通。可以看到,每个滤波器滤出输入信号的半个谐波。这一输出经最大降抽样后,其频谱在数字频率上被扩展P倍,并移动到以零频率为中心的位置。这也就是MLT的第k路输出ck[m]的频谱,其中m表示时间。

最新回复

学习了,谢谢楼主分享,如果有更多语音合成相关的方法更好!  详情 回复 发表于 2009-8-21 16:30
点赞 关注
 

回复
举报

161

帖子

0

TA的资源

五彩晶圆(初级)

沙发
 

基音调整的语音分析方法

图1 输入信号与余弦调制滤波器谱
2.3 参数量化方案讨论
  连续的时变幅度参数应用于低数据率编码,可以有效地控制合成语音的清浊音程度,提高合成语音的质量。由于这一参数与波形插值算法参数具有相似的物理意义,可以利用类似的量化方案。这里仅对波形插值算法中的量化方案做一简单的讨论。连续的时变幅度通过低通、高通滤波器后分解为代表浊音和清音的两个成分。对浊音成分的时变幅度,截取对应与语音的低频段的部分进行矢量量化; 清音成分的时变幅度,只需量化其大致形状。清浊音成分的分离利用了人耳的听觉特性,实现高效率的压缩编码[4]。

3 实验结果
  整体的语音分析系统如图2所示。参数分析部分的输入是经线性预测滤波去除声道响应的残差信号,经过基音提取、基音调整和MLT,得到在新的时间轴上均匀抽样的参数,这些参数通过基音恢复得到在时间轴上均匀抽样的参数。语音合成的过程即分析的逆过程。在参数不进行量化编码的前提下,这一分析合成系统的输出与原始信号相同,实现了语音信号的准确重建。


(a) 语音分析

(b) 语音合成
图2 基音调整的语音分析和合成框图
  实际实现时,由于基音调整的有限窗长效应,在输出信号中引入了误差。对语音处理的测试结果表明,使用较短的窗长,就可以得到较高的合成和原始语音的信噪比。例如,在基音调整和基音恢复中分别采用长度为12,6个抽样点的窗,合成和原始语音的信噪比就达到47dB,满足低数率语音编码的要求。
  分析系统的输出适用于低数据率编码。对周期性较强的浊音信号,MLT正变换的结果是一个窄带信号,即它随时间的变化是缓慢的,可以通过进一步降抽样后的量化编码来降低数据率。同时,它具有频域表征的物理意义,可以直接利用人耳的听觉特性有选择地量化。类似的技巧在波形插值编码器[4]中有所应用,在2.4kbit/s数据率上实现了高质量的语音合成。
  为了评价MLT输出的参数的性能,本文采用了均方根(RMS)平均带宽这一参数。信号ak(t)的平均带宽定义为

可以推测,平均带宽低的信号,更有利于量化编码。注意,这里的平均带宽是对原始的时间尺度上的信号估计。实验中对自然语音信号的线性预测残差进行了参数提取,并估计参数的平均带宽。采用的语音信号与1.2节中的数据相同。实验结果显示,低频段11路输出的平均带宽为25Hz,远低于正常的基频值60~400Hz,也与最初对时变幅度为窄带信号的假设一致。作为比较,同时计算了语音经波形插值算法提取的参数,其平均带宽为43Hz,高于新的分析方法得到的参数的25Hz平均带宽。
4 结 论
  与传统的分析方法比较,基音调整的分析方法采用的语音模型具有一定的优势。相比于码激励的线性预测(CELP)中的自适应码本,新方法能更有效地对浊音激励进行表征,提高合成浊音的质量。改进的多带激励(IMBE)中,由于受时变的基音周期的影响,高频段的多带清浊音判决常误判,导致合成语音的清浊音程度很难控制。新方法分离了基音周期的影响,能更直接地控制合成语音的清浊音程度。特别是,新的分析方法在模型的层次上是没有近似的,即在忽略量化误差的前提下,采用这一模型可实现语音的无损重构,这是很多其他模型无法实现的。

基金项目: 国家重点自然科学基金(69636030),博士点基金(950031)
第一作者: 女, 1973年生, 博士研究生
作者单位:杨慧敏,陈弘毅,孙义和 清华大学 微电子学研究所, 北京 100084

参考文献
1 Tremain T E. The government standard linear predictive coding algorithm: LPC-10. Speech Technology, 1982, 1(2): 40~49
2 Tremain T E, Welch V C. The DoD 4.8kbps Standard (PFS1016). In: Atal B S, Cuperman V, Gersho A, eds. Advances in Speech Coding. Dordrecht. Holland: Kluwer Academic Publishers, 1991. 121~133
3 Inmarsat Satellite Communication Services. Inmarsat-M System Definition Issue 3.0-Module 1: System Description. 1991
4 Kleijn W B, Haagen J. Waveform interpolation for speech coding and synthesis. In: Kleijn W B, Paliwal K K, eds. Speech Coding and Synthesis. Amsterdam: Elsevier Science Publishers, 1995. 175~208
5 Burnett I S, Bradley G J. New techniques for multi-prototype waveform coding at 2.84kb/s. In: Proc ICASSP. Detroit: IEEE, 1995. 261~264
6 Hiwasaki Y, Mano K. A new 2kbit/s speech coder based on normalized pitch waveform. In: Proc ICASSP. Munich: IEEE, 1997. 1583~1586
7 Evangelista G. Pitch-synchronous wavelet representations of speech and music signals. IEEE Trans Signal Process, 1993, 41(12): 3313~3330
8 Vetterli M, Kovacevic J. Wavelets and Subband Coding. Englewood Cliffs, NJ: Prentice Hall, 1995
9 Hess W J. Pitch and voicing determination. In: Furui S, Sondhi M M, eds. Advances in Speech Signai Processing. Marcel Dekker Inc, 1992. 3~4810McAulay R J, Quatieri T F. Sinusoidal coding. In: Kleijn W B, Paliwal K K, eds. Speech Coding and Synthesis. Amsterdam: Elsevier Science Publishers, 1995. 121~173

 
 

回复

109

帖子

0

TA的资源

纯净的硅(中级)

板凳
 
学习了,谢谢楼主分享,如果有更多语音合成相关的方法更好!
 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/8 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表