人们通常将语音识别分为语音分析和词语辨识,如果只是针对具体的语音进行划断识别,语音识别的精度肯定不会很高。我们应该关注人类大脑内部的结构,研究这些结构是如何帮助识别的。人的语言前后是连贯的整体,不能割裂开来处理;人的语言是有语境的,需要借助语境辅助识别。由于人的发音范围有限,而需要表达的意义众多,语言中有很多多音字,还有一些相近的字,人们还通过音节的拼接和划断来构成意群,这都会给识别增加难度。
语言就是编码和解码的过程,只有掌握了这套解码的钥匙,才能顺利进行语音识别。从理论上讲,表达着与接收者之间形成语义共振,从而传达特定的语义,语音只是载体,语义才是传输的信息,对于载体,我们要求拥有较高的信噪比和带宽,能够不被干扰;对于信系内容,则要求简洁。人类在激烈的生存竞争条件下需要提高竞争力,语言交流需要有效率。我们通过观察可以发现,在干扰较大的情况下,人们是通过夸张的口型、动作等辅助语义传输,这是为了提高辨识率;在信号比较清晰的情况下和双方默契的情况下,人们习惯使用简略的语言来表达,从而提高加密度和传达效率,能够对在场的而不需要知道的人实现区别传递。有时候看到两个人在说“暗语”、“黑话”,可能感到很生气但又没有办法,因为这套交流所需的背景知识只有表达和接收的两个人才了解,别人即使听得非常清晰,却不能将意义收敛。
了解了语言表达的实质,我们就能发现传统的语音识别存在的问题。1、如果将一句话分成许多字词去识别,只完成了语音识别的一部分工作,割裂了前后语音的关联,丢失了重要的识别信息,本来人可以达到的识别精度,机器就达不到,量变引起质变,机器识别过不了这个识别阈,成为失败的识别系统。2、机器中缺乏人脑中存在的概念,在遇到关键识别点的时候不能形成敏锐的识别能力,不知轻重缓急,从而达不到识别效果。从无线电传输中我们可以借鉴一些原理,电视天线只有针对特定频率形成尖锐的接受敏感度,能够形成高增益,才能使接受信号清晰。3、更高级的语言技巧自不用说,连基本的识别能力都做不到,如果表达着再使用一些表达艺术和脑筋急转弯,在系统缺乏这类技巧的时候就难以有所反应。人们常常采用情态辅助传递,情态对于语义有很好的收敛效应,在一定情态下更可能传达什么意思、不可能传达什么意思是有约定的,计算机如果不能针对情态进一步收敛语义,自然就难以接受到情态信息,也就难以针对情态优化识别。
我们应该考虑哪些影响识别的因素,从而提高识别能力?
1通过模式创生和模式激活提高敏锐度。
2通过语境和多渠道信息融合提高识别收敛度。
3通过想象提高语义延伸能力。
4通过语言模式修正对方言的识别。
5通过语法验证来纠错。
6识别情态,然后根据情态提高收敛度。
7运用节奏模式、语法模式提高重点监测点,提高思维效率。
8通过预测下文,提高噪声环境下的识别能力。
9通过局部脑区处理,实现多声源语言跟踪。
在大规模技术缺位的情况下,语音识别该如何做?技术的积累和能力的超越是一步步完成的,在达不到相应技术的前提下,我们不能追求更高的结果。从理论上讲,只有人最了解人,这是因为人的思维系统存在同构性,要计算机识别人类语言,就需要在结构方式上模仿人脑神经系统结构。人脑是由神经元细胞通过自组织形成的灵敏结构,这种系统结构具有自生成、自适应、携带本能等特点。运用这套结构的好处是系统具有自动学习能力。可以说如果不采用人脑自组织神经元群,就不能达到复杂系统的灵活性和自动建构,也就不能实现高水平的语音识别能力。