语音识别技术已经成熟,这对成熟的竞争者和新来者来说都意味著巨大商机
作者: Jeanette Brozo
人 机对决通常有两大要素: 自负的年轻冠军和新改进的计算机。下面这次对决中的年轻冠军是 17 岁的本8226;库克(Ben Cook),他已经被《吉尼斯世界纪录》确认为是世界上发短信最快的人,但机器并不是超级计算机,而是手机。不过,这并不能降低对决的精彩程度。至少对去年到奥兰多参加语音识别软件会议的人们来说是如此。哪个能更快地将一个复杂句子转化成文本?是库克飞一般的拇指,还是 Nuance Communications 公司开发的语音软件的精妙程序?显示屏上闪动著那个变态的考试句: The razor-toothed piranhas of the genera Serrasalmus and Pygocentrus are the most ferocious freshwater fish in the world. In reality they seldom attack a human(牙齿如剃刀一般的锯脂鲤属和尻锯脂鲤属食人鱼是世界上最凶猛的淡水鱼,实际上它们很少攻击人类)。库克疯狂扭动著拇指,Nuance 公司的一位员工则平静地对著手机念出这个句子。结果引起了轰动: Nuance 的软件在 16 秒内就将这句话毫无差错地转化成文本,库克用了 48 秒钟才费劲地完成了。他用困惑的语调嘟囔著说: “不知道你们是怎么做到的。”
他们用了 Nuance 不久前推出的移动听写软件(Mobile Dictation),这款软件在今年上半年就将由运营商提供给用户。它还有更深的一层含义: 语音识别长期以来受人讥笑,说它就像个人飞行喷气装置和神探的腕表,永远都是即将出现的技术,如今这一技术最终出现了。处理能力的提高、新的软件程序、麦克风质量的改进,使得 Nuance 这样的成熟企业和一大批新创公司能够设计出实用的软件,准确率近乎 100%。它为许多市场创造了极大的增长潜力,包括手持听写设备、移动电话、车载设备和战场翻译机。
2006 年,语音识别技术的市场规模第一次超过了 10 亿美元,比两年前增长了 100%。这一广阔市场内的细分市场同样也在飞速增长。据奥普斯研究公司(Opus Research)统计,用于呼叫中心、依托服务器的语音识别技术的市场规模在 2006 年已接近 6 亿美元,并且有望在 2009 年翻番。据研究公司 Datamonitor 提供的资料,安装于电话和汽车仪表盘上的语音识别系统的市场规模,在 2006 年为 1.25 亿美元。随著“能说话的电子设备”的水平的不断提高,电话和汽车的语音指挥功能将得到快速推广。到 2010 年,这一市场将增长三倍,达 5 亿美元。有专家预计,语音识别系统最终有可能被用到所有设备、电器和机器上。
需求的猛增促使原有的语音公司和新加入的竞争者增加投入。2006 年,Nuance 收购 Dictaphone,加强其在医疗产业的地位。同时,Nuance 的销售额增长了 20%,超过了 3 亿美元。微软公司(Microsoft)新出的操作系统 Vista 采用了语音技术。起初,它的语音技术存在令人难堪的漏洞,如今终于得到了评论家的赏识。谷歌据说正研究语音搜索技术。而风险资本家现在正排著队,等待资助硅谷内外有语音识别方面创意的创业家。Datamonitor 的分析师丹尼尔8226;洪(Daniel Hong)说: “语音技术最终由一项酷技术变成了商业解决方案。”
语音识别技术可追溯到 1952 年,贝尔实验室(Bell Labs)在那一年组装了一套原始系统,可以识别电话里报出的数字。自那以后,这项技术进展缓慢。但随著强大的计算设备的出现,又经过多年的错误测试,如今的系统达到了极致,能处理各种口音、方言和怪异的声调。2004 年,华盛顿州贝尔维尤市的一家新创企业 VoiceBox Technologies 推出了一种样品,有铁皮箱那么大。而今天,同样的设备可以安装在信用卡大小的机器当中,已经成为丰田公司(Toyota)语音指挥控制板的大脑。VoiceBox 的系统已经十分先进,甚至能根据上下文分析词义。比如,能搞清指令“traffic”究竟是指道路拥堵、史蒂夫8226;温伍德(Steve Winwood)的曲目(温伍德曾是 Traffic 乐队成员──译注),还是迈克尔8226;道格拉斯(Michael Douglas)主演的那部有关毒品走私的电影。
如今的系统还有强大的自学能力。加利福尼亚州芒廷维尤市的新创企业 Tellme Networks 生产用于企业呼叫中心和电信公司的 411 信息系统(指电话查询服务──译者)的语音识别软件。Tellme 的平台每天可捕获 100 万个发音,并不断加以分析,真正做到了天天提高准确度。Tellme 高级经理杰夫8226;昆尼斯(Jeff Kunins)说: “语音识别就是模式识别。你的数据越多,识别效果越好。”
语音识别用作客户工具时价值更高。老式的讲话识别技术只知道提示“按 1 或说 1”,令人恼火,也使呼叫中心和客户服务部的口碑很差。但客户的愤怒并不是唯一的惩罚: 根据 Datamonitor 提供的数据,如果安排一名员工处理呼叫,呼叫中心平均每次呼叫的成本为 5 美元;但如果采用自动服务、可通话的设备,成本仅有 50 美分。在线经纪公司 E-Trade 采用 Tellme,日处理 5 万次呼叫,其中有一半不由员工经手。公司说,Tellme 的系统每年至少为它节约 3,000 万美元。TuVox 也从呼叫中心和公司市场上拉客户。营销副总载阿齐达8226;马丁(Azita Martin)让她的团队给呼叫中心打电话,录下接通某个部门(比如财务部门)的复杂而繁琐的步骤。然后,他们再制作一个音频文件,显示如果马丁的目标公司采用 TuVox 软件,以先进的语音识别技术转接呼叫,听上去会是怎样的一个互动情形。她用电子邮件把这两种互动的情况发送给使用那家呼叫中心的目标公司的首席执行官。两者之间的对比帮助马丁在过去数月里签下了大量客户。这也是 TuVox 年营业额以两位数增长和客户群在 12 个月内增长三倍的原因之一。它的客户之一新西兰电信公司(Telecom New Zealand)报告说,自从安装了 TuVox 系统,呼叫中心的客户满意度提高了两倍。
呼叫中心和汽车预计仍将是语音识别不断增长的市场。但真正的高利润的到来,可能是等将来识别系统经改进后在各种移动设备上的应用。首先说说手机。电信公司认为,如果手机上有了好用的语音界面,消费者将乐意为很多附加服务付费,比如听写电子邮件、搜寻餐厅等。奥普斯研究公司说,电信公司希望每月从每个选择语音手机的消费者那里多赚取 5 到 15 美元。很多新创企业抢著提供这一技术,其中包括 Promptu 公司。这是一家由几位语音技术资深人士在 2000 年创办的公司,位于加利福尼亚州门罗帕克市。它开发了一套语音工具,将在今年晚些时候通过几家运营商提供给消费者。Promptu 高级副总载布拉迪8226;布鲁斯(Brady Bruce)说: “电信公司正在给我们打电话呢。我很高兴。”
其他新创企业在为 MP3 播放器、手持 GPS、笔记本电脑等各种设备开发语音功能。前微软和 Amazon 的工程师阿列克斯8226;卡斯特罗(Alex Castro)在去年 2 月创办了 Pluggd 公司,开发出一种搜索引擎,结合了语音识别和语义分析,可以准确找到所需信息的位置。比如,在烹饪播客中找出讨论蛋奶稣烘烤技巧的地方。Vocera Communications 的创办者是看著电视连续剧《星际迷航》(Star Trek)长大的,他们以剧中科克船长和其他角色来命名他们在硅谷总部的会议室。两年前,公司发布了一种结合了语音识别和无线技术的胸徽,这款产品的设计也受到了电视剧的启发。当时,它引起了一些人的嘲笑,但随后追捧的人越来越多。公司的一个客户群是医务工作者。有了它,就可以用语音搜索医院,找到能解决患者问题的人,或者查询医疗记录。Vocera 希望明年初实现盈利。VoxTec International 公司的 Phraselator 是一种手持设备,有支票簿大小,用于听取请求翻译的短句,并将其翻译成 41 种语言当中的任意一种。美国驻伊拉克和阿富汗的部队目前正在使用这种设备,用于对阿拉伯语、普什图语和其他当地语言的即时翻译。这家公司来自马里兰州安纳波利斯市,最早是在 1997 年为国防部开发了这项技术。它不愿披露具体数目,但表示销售额在上涨。
很多专家预计,随著语音识别将取代录入、敲键盘、写字和触摸,成为人机互动最主要的界面,语音技术迟早有一天会遍布各个角落。微软语音识别项目主管罗伯8226;钱伯斯(Rob Chambers)甚至预计,总有一天,这项技术会强大到可以纠正用词和语法的错误,实现语音拼写检查。
做到这一步,可能还需要几十年。但正如去年秋天奥兰多所显示的,技术进步十分迅猛。Nuance 公司打败短信冠军的那款软件的精确度,比公司前一年最好的软件高出了 25%。公司的研究人员称,下一代产品一年内即可上市,比目前最好的系统的出错率还要低 20%。Nuance 全球营销副总裁彼得8226;马霍尼(Peter Mahoney)说: “本8226;库克的手机录入快得让人难以置信,但这项技术会越来越比他的速度快。”