随着现代科学技术的发展和对人体发音器官及语音信号的分析处理水平的提高,出现了语音合成和语音识别芯片,以及在此基础上开发的产品。语音合成和语音识别技术为人机对话开辟了一条新的途径。
语音合成的主要目的是让机器能说话,以便使一些其他存储方式转化成语音信号,让人能够简单的通过听觉可以获得大量信息。语音合成技术除了在人机交互中的应用外,在自动控制、测控通信系统、办公自动化、信息管理系统、智能机器人等领域也有着防范的应用前景。目前各种语音报警器、语音报时器、公共汽车上的自动报站、股票信息的查询、电话查询业务,以及打印出版过程中的文本校对等均已实现商品化。
语音合成领域涌现出大量新技术和新设计。20世纪70年代,出现文语转换系统的新型计算机口语输出系统,特点是用最基本的语音单元,比如音素、双音素、半音节、音节,作为合成单元建立语音库,通过合成单元拼接达到无限词汇的合成。为了保证合成器的输出具有良好的音质,在这种系统中出语音库外,还有一个相当庞大的规则库对合成与语音的音段特征和超音段特征进行控制,缺点是对语种的依赖性。代表性的成果是DECTalk,可以供用户选择7种不同的音色的语音。进一步发展,瑞典皇家理工学院Fant实验室研制成功的多语种文语转换系统是另一个成功的例子。该系统可以将英语、法语、瑞典语、西班牙语、芬兰语的文本输入转换为口语输出。DECTalk的德语版本,日本利用DECTalk开发可以讲日语和汉语转换成口语的系统。汉语文语转换系统在中国研究起步晚,但进展快,目前已达到了无限词汇合成的目标,但自然度方面还没有令人满意。语音合成已发展到一个新阶段,其中文语转换技术在声学处理部分的技术已趋于成熟,它的主要问题在与规则系统还不够完善。只有从本民族语言的语音学的研究中汲取丰富的知识,才能合成出连续自然的语音。至于文语转换系统的另一个重要部分,语言学处理部分,在国际上也处于探索阶段,必将成为这个领域今后发展的热点。
词汇量有限的语音合成比较成熟,但是大词汇量的语音合成技术至今还未达到真正的完美程度。
语音合成的基本原理
人在发出声音前,进过一段大脑的高级神经活动,即先有一个说话的意向,然后围绕这个意向生成一些列相关的概念,最后将这些概念组织称语句发音输出。日本学制Fujisaki按照人在说话过程中的各种知识,将语音合成由浅到深分成3个层次,他们是1.按规则从文本到语音的合成2按规则从概念到语音的合成3按规则从意向到语音的合成。目前语音合成研究还只是在文本到语音的合成上,也就是通常的TTS系统。
语音合成是一个分析-存储-合成的过程,一般是选择合适的基元,将基元用一定的参数编码方式或波形编码方式进行存储,形成一个语音库。合成时,根据待合成的语音信息,从语音库中取出相应的基元进行拼接,并将其还原成语音信号。语音合成中,为了便于存储,必须先将语音信号进行分析或变换,因而在合成前必须进行相应的反变换。其中,基元是语音合成系统中所处理的最小的语音学基本单元,待合成词语的语音库就是所有合成基元的集合。根据基元的选择方式以及其存储形式的不同,可以将合成方式笼统的分成波形合成方法和参数合成方法。
意向--》语义表示--》概念---》语言编码--》文本---》发声编码---》控制信号--》语音产生---》合成语音。
波形合成方法是一种相对简单的语音合成技术。把人的发音波形直接存储或者进行简单波形编码后存储,组合成一个合成语音库;合成时,根据待合成的信息,在语音库中取出相应单元的波形数据,拼接或编辑到一起,经过解码还原成语音。这种系统中语音合成器的主要任务是完成语音的存储和回放任务。如果选择如此组或者句子这样较大的合成基元,则能够合成高质量的语句,并且合成的自然度好,但所需要的存储空间也相当大。虽然在波形合成法中,可以使用波形编码技术压缩一些存储量(ADPCM,APC),但由于存储容量的限制,词汇量不可能做的很大。波形合成法可合成的语音词汇量约在500字以下,一般以语句、短句、词、或者音节为合成基元。
参数合成法也称为分析合成方法,比较复杂。为了减少存储空间,必须下对语音信号进行各种分析,用有限个参数表示语音信号,以压缩存储容量。参数的具体表示,可以根据语音生成模型得到诸如线性预测系数、线谱对参数、或共振峰参数等。这些参数比较规范,存储量少。参数合成方法的系统结构较为复杂,并且用参数进行合成时,由于在抽取参数或编码过程中,难免存在逼近误差,用有限个参数很难适应语音的细微变化,所以合成的语音质量以及清晰度等也就比波形合成法要差一些。
分析-存储-合成的思想不可能合成任意语种的无限词汇量的语音。国际上很多学者在开发另一类无限词汇量的语音合成方法,就是所谓的“按语音学规则的从文本到语言”的语音合成法,简称规则合成方法。期望通过这种研究合成高自然度的语言。规则合成方法是一种高级的合成方法,合成的词表可以事先不确定,系统中存储的是最小语音单位的声学参数。按照由音素组成音节,由音节组成词,由词组成词组,有词组组成句子,以及控制音调、轻重等韵律的各种规则,给出待合成的字或语句。研究重点是挖掘人在说话时,是按什么规则来组织语音单元的,并将这些规则的知识赋予机器,因而在机器合成语音时,只要输入合成基元,机器就应该会按照所给的规则合成与人说话时相同的语音来。所使用的文本的合成基元愈小,这些规则也就愈多、愈复杂,当然所用的存储量就愈小,因此在选择文本合成基元时应该折衷考虑。
无论哪一种合成方法,在将基元做相应的拼接时,都要按着合成规则对基元做不同的调整,是合成语音达到一定的自然度。
波形合成方法和参数合成方法进入实用阶段,但规则合成方法,以小单位进行合成的方法,极其复杂的研究课题,应用较少。
下面从基本信息,语音质量可懂度、自然度、词汇量、合成方式、数码滤、1Mb可合成语音长度 合成单元 实现依次作比较。
波形合成方法 波形高高少(500字以下)PCM,ADPCM,APC9.6Kbps-64Kbps 15-100s音节,词组,句子 简单
参数合成方法 特征参数 高 中 大(数千字)LPC,LSP,共振峰 2.4Kbps-9.6Kbps100s-7min 音节、词组、句子 比较复杂
规则合成方法 语言符号组成 中 第 无限 LPC、LSP、复倒谱50Kbps-75Kbps 无限 音素、音节 复杂
无论哪种语音合成方法,合成基元的选择都是一个关键问题。基元选择与语音合成所占用的存储空间、合成质量以及所应用的规则数量等都密切相关。
按照从小到大顺序排列,语音学中的音素、双音素、半音节、音节、词、短语、句子都可能作为合成系统的基元。以短语和句子作为基本合成单元,能够保留短语和句子内部结构中韵律和其他特征,合成的音质比较高。任何一个与众,句子和短语成千上万,所能存储的句子或短语有限,同时每个句子和短语所占的存储空间和很大,无限词汇的合成不可能。但可以得到高音质,可以适当减低存储量,进行有限词汇的专用合成。词是语言系统中一个较小的单位,也是最小的自由形式。词的发音在孤立的情况下和在句子中有较大的差异。词的韵律规则不仅受到其他其他词的影响,还受到整个句子伸展情况的影响。因此,以词为单位进行合成时,若不加入韵律规则,词词相联构成的合成语音的自然度较差。以词为基元做合成时,需要的规则较少,对一些小词汇量专用系统比较合适,不适于无限词汇的合成系统。音素可以作为无限词汇合成的基本合成单元,它是音位学中的最小单元,因素的数量少,持续时间短,存储量小,但是因素不是具体的事物,仅仅是一组语声的逻辑再现,如何确定一个音素是比较困难的问题。必须有精确的规则和算法,才能有效地讲一个词转换成因素组合序列的形式;同时由于音渡和协同发音的影响,不能将音素直接的连接起来合成语音,要利用平滑语音的线性插值算法以及详尽齐全的连接规则集;但规则集对于音渡变化过快时也较难处理,可能会丢失一些重要的声学特征。双音素是语音中不能用内插法或删除法在缩短或伸长的一段发音。用双音素作为基本的合成单元,解决音渡问题,保证了起始与结束与同一个音素的语音片的连续性。许多音节是以复杂的辅音结束的,用双音素的简单连接很难描述其韵律特征。引入半音阶的概念。一个音节分成两个半音节,具体划分方法是将大部分的元音都划归为第二个半音节。音节的持续时间因所处的位置不同而受语音的韵律影响不同。该影响出现在元音靠近的辅音片部分,所以半音节可以有效地体现出韵律特征,但不能解决协同发音问题。多音素的概念是将不同词中的相同部分作为一个单元,用他们构成所有的词。多因素是语法的最小区别性单位,即使最低一级的语法单位。多音素是一种有着具体问法含义的语音基本组织,对语音识别以及合成很重要。使用多音素作为语音基本合成单元时,不需要字符到因素的转换规则,但需要有详细的由多音素连接构成词的连接规则和插值算法,否则,音质会很差。音节是语音中最自然的结构单位。在汉语中,一个音节就是汉语中的一个音,从结构的大小上看,音节初于音素和多音素之间,音节作为基本的合成单元,可以解决一些因素层上的协同发音问题,但是音节和音节之间也有协同发音。
语音合成基元的大小和算法的复杂性和变化的灵活性成反比,与数据库的大小成正比。选择合成单元小,规则多,编辑处理复杂,但修改灵活性大。合成基元大,音质好,合成语音的数量以及数码率大。汉语中基元不能为音素。
上面的语音合成没有解决机器说话问题,本质上是一个声音还原的过程。语音合成的最终目的是让机器说话,语音产生过程,设想在机器中首先产生讲话内容,讲话内容一般以表示信息的字符代码形式存在然后按照复杂的语音规则,将信息的字符代码形式转换成有发音单元组成的序列,同时检查内容的上下文,决定声调、重音、必要的停顿以及陈述、命令、疑问等语气,并给出相应的符号代码形式。根据这些符号代码,按照发音规则生成一组随时间变化的参数序列,再去控制语音合成气发出声音。汉语在无限词汇量的语音合成中有优越性。音节组成词、词组成词组、词组构成句子。一音多字不必考虑。