语音信号特征应用 语音识别 特征提取

语音信号特征应用 语音识别 特征提取

语音信号的时域特征,频域特征,共振峰,基音周期特征。

基音周期的估计

基音是指发浊音时声带振动的周期性,而基音周期是指声带振动频率的倒数。基音的变化模式为声调。基因检测,只能采用短时平均方法估计该周期。其难点表现在

1.语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的头、尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判断他应属于周期性或非周期性,从而无法估计其基音周期。

2.要从语音信号中取出声道的影响,直接取出仅与声带振动有关的生源信息并非易事。而声道共振峰有时会严重影响激励信号的谐波结构

3.在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的,也是因为波形的峰受共振峰结构、噪声等影响较大。

4.基音周期变化范围大,从低音男生的80Hz到女孩的500Hz,这也给基音周期的检测带来一定的困难。另外,浊音信号可能包含有三四十次谐波风量,而基波分量往往不是最强的分量。语音的第一共振峰在300-1000Hz范围内,2-8次谐波成分往往比基波分量还强,丰富的谐波成分是语音信号的波形变得很复杂,给基因检测带来困难,经常发生基频估计结果为实际基因频率的二三次倍频或二次分频的情况。

基因检测方法3类

波形估计法:直接有语音波形来估计基因周期,分析出波形上的周期峰值。包括并行处理法,数据减少法。

相关处理法:包括波形自相关法,平均振幅差分函数法,简化逆滤波法等

变换法:将语音信号变换导频或倒谱域来估计因周期,利用同态分析方法将声道的影响消除,得到属于激励部分的信息,进一步求取基音周期。包括倒谱法,循环直方图。

自相关法:浊音信号的自相关函数在基音周期的整数倍上出现峰值,而清音的自相关函数没有明显的峰值出现。由此判断请浊音,而峰-峰值之间对应的就是基音周期。影响的主要原因是声道响应部分。可以进行一些前期的预处理。语音信号的低幅值部分包含大量的共振峰信息,高幅值部分包含较多的基音信息。任何消减或者抑制低幅度部分的非线性处理都会使自相关方法的性能得到提高。中心削波就是一种,消除语音信号的低幅值部分。计算量大,采用三电平中心削波方法。还可以用一个带通为900Hz的线性低通滤波器滤除高次谐波分量。短时自相关函数检测时,与实际不符合,原因有二:一方面与窗长有关,认为窗长应该至少大于两个基音周期。另一方面与声道特性有关。

基于短时平均幅度差的基音周期的估计,平均幅度差只涉及加减何求绝对值运算。

倒谱法,对语音信号利用倒谱解卷原理,可以得到激励序列的倒谱,它具有与基音周期相同周期。当采用无噪语 音时,倒谱法很理想。然而有加性噪声时,在对数功率谱中的低电平部分被噪声填满,掩盖了基因谐波的周期性。

简化逆滤波法:简化的逆滤波跟踪算法先抽取声道模型参数,利用这些参数对原信号进行逆滤波,从预测误差中得到声源序列;再用自相关法求的基音周期。语音信号通过线性预测逆滤波器后达到频谱的平坦化。预测误差是自相关器的输入,通过与门限的比较可以确定浊音,通过辅助信息可以减少误差。在基因检测中,广泛采用对语音波形或误差信号波形进行低通滤波,因为这种低通滤波对提高基音周期的检测精度有良好的效果。低通滤波在去除了高阶共振峰影响的同时,还可以补充自相关函数时间分辨率的不足。

无论采用哪一种算法求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合,实际情况是大部分段乱吻合,局部段落区域中有一个或几个基音周期偏离正常的轨迹。可以采用平滑算法,中值平滑算法和线性平滑算法。

共振峰的估计

共振峰是反应声道谐振特性的重要特征,它代表了发音信息的最直接的来源。共振峰信息包含在语音谱包络中,因此提取共振峰参数的关键是估计语音的频谱包络,一般认为谱包络中的最大值是共振峰。实际受很多问题干扰

1.虚假峰值,在正常情况下,频谱包络中的极大值是由共振峰引起的。但在线性预测分析方法出现之前的的频谱包估计器中,出现虚假峰值是相当普遍的现象。甚至采用线性预测方法时,也并非没有虚假峰值。

2.共振峰合并,相邻共振峰的频率可能会靠的太近而难以分辨,这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。

3.高音调语音

传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔宽,因而为频谱包络估值样点比较少,所以频谱包络本身的估计就不够精确。

基于线性预测的共振峰求取方法

一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。线性预测共振峰估计有两种途径:一是利用一种标准的寻找复根的程序计算预测与茶滤波器的根,为求根法,一种是找出预测器导出的品谱包络中的局部极大值,选峰法。

求根法是找出多项式复根,根据求得的根来确定共振峰。采用牛顿-拉夫逊搜索算法。该算法先猜测一个根值,并就此猜测计算多项式及其导数的值,然后利用计算结果再找出一个改进的猜测值。连个猜测之小于设定的阀值时,结束求根。

选峰法

计算出语音信号的频谱包络,然后通过对频谱包络中局部极大值进行搜索找出共振峰。缺点是对共振峰合并无能力。方法是减少从极点到计算频谱包络曲线的距离。原则上,只要函数求值曲线与极点相距足够近,任何共振峰合并问题可以解决。也会将谐波峰值误认为共振峰,利用谐波频率及其上下两个次级值频率求的共振峰频率。

倒谱法

可以构造倒谱滤波器,将声道倒谱分离。从而可以由此确定共振峰及其声道和激励参数。

  

爱华网本文地址 » http://www.aihuau.com/a/25101014/237202.html

更多阅读

Android语音识别--RecognizerIntent用法 intent setdata 用法

在网上找了一篇关于Android语音识别的文章,自己慢慢研究。 Android中主要通过RecognizerIntent来实现语音识别,其实代码比较简单,但是如果找不到设置,就会抛出异常ActivityNotFoundException,所以我们需要捕捉这个异常。而且语音识别在模

警卫语音识别系统终结升级版 云os终结者升级版 apk

本软件的使用需要有微软中文语音识别引擎支持方可使用,如果您的系统还没有安装微软中文语音识别引擎请到下面地址下载(直接复制用下载工具下载):http://www.ie5.net/speechsoft/speechsdk51.exe(语音识别引擎,先安装)http://www.ie5.net/sp

语音合成概述 普通话语音概述

随着现代科学技术的发展和对人体发音器官及语音信号的分析处理水平的提高,出现了语音合成和语音识别芯片,以及在此基础上开发的产品。语音合成和语音识别技术为人机对话开辟了一条新的途径。语音合成的主要目的是让机器能说话,以便使

声明:《语音信号特征应用 语音识别 特征提取》为网友從此陌生分享!如侵犯到您的合法权益请联系我们删除