具有超强计算能力的谷歌公司已成为超级翻译服务提供商,传统翻译公司今后还有用么?
在2004年谷歌的一个会议上,大家的讨论集中到一封韩国谷歌粉丝写的电子邮件上。谷歌创始人之一谢尔盖·布林(Sergey Brin)便用一款该公司已通过授权的翻译系统把这封信翻译成英文。 该邮件的原意是谷歌是广受欢迎的搜索引擎,但是自动翻译却译成“生鱼片鞋子它希望,谷歌是绿洋葱东西!” 布林当即表示,谷歌应该能比这做得更好。6年后,谷歌的免费在线翻译服务能处理52种语言,比其他任何类似的免费翻译系统都多。每周人们使用它来翻译网页和文本多达上亿次。 卡内基梅隆大学(Carnegie Mellon University)语言技术研究所(Language Technologies Institute)副研究员阿隆·拉维(Alon Lavie)称,在不局限于某一特定专业领域的计算机翻译系统中,“谷歌的翻译是超一流的”。 谷歌也致力于开拓搜索服务以外的领域,不过输赢参半:数字图书项目深陷侵权诉讼中,其新推出的社交网络服务Buzz又激起了用户对隐私泄露的恐慌。种种此类情况显示,谷歌在挑战商业传统和文化习惯时,有时也不免失策。 但是谷歌此次从翻译服务中迅速脱颖而出并跻身顶级翻译服务提供商,足以向人们证明谷歌在处理复杂问题上所发挥出来的强大计算能力。 如果把谷歌为网页搜索而建立的数据中心网络连在一起,可算得上是目前世界上最大的计算机。谷歌正是用这样的方式将其强大的计算能力应用在翻译技术上。比如,上个月谷歌称正在研究将其翻译工具与图象分析进行结合,这样当人用手机对着一份德语菜单拍照片,就能马上得到英文翻译。 “谷歌的机器翻译是展示谷歌的战略愿景的最佳例证之一,”科技图书出版商奥莱利传媒(O’Reilly Media)的创始人兼首席执行官蒂姆·奥莱利(Tim O’Reilly)说道,“这项业务本不受人重视,但谷歌能对海量网络数据进行深入挖掘,简直达到了其他人所无法达到的境界,并愿意为解决这些复杂的问题、抢得市场先机而做出必要的投资。” 开发翻译机器一直被视为人工智能领域中最大的挑战之一。数十年来,计算机科学家们尝试使用一套基于规则的方法——教给计算机两种语言的语法规则并在电脑中存储必要的词典。 但是到上世纪90年代中期,研究人员开始倾向于使用一种所谓的统计方法:他们发现,如果将海量的文本和对应的人工翻译输入电脑,电脑就能在翻译新文本时做出正确的猜测。 这种技术虽然需要海量的数据和计算能力,却恰好能发挥谷歌的计算特长。 “我们的基础设施非常适合使用这项技术,”谷歌工程副总裁维克·冈多特拉(Vic Gundotra)说道,“我们可以采用其他人做梦都不敢想象的方法。” 自动翻译系统目前还远不够完美,就是谷歌的免费在线翻译服务也不会立刻使人工译员失业。专家称要计算机自己学会断句,翻译再重组句子还是极其困难的。 但谷歌的翻译服务已经能很好地传达新闻的要点,也为人们提供了便捷的翻译服务。马里兰大学帕克分校(University of Maryland, College Park)语言学副教授、机器翻译专家菲利普·雷斯尼克(Philip Resnik)说:“如果你只需要粗略快捷的翻译,谷歌翻译就是你的不二之选。”正如该领域中的对手(如微软和IBM公司),谷歌已将联合国会议文件(人工翻译的六种语言文本)及欧洲议会文件(23种语言文本)输入了其翻译引擎中。这些原始资料都被用于训练谷歌在线翻译系统识别这些最通用的语言。 除此之外,谷歌还搜索了网页上的文本,图书扫描计划中的文件以及其他来源的语言文件。对于比较晦涩的语言,谷歌发布了“翻译工具箱”帮助用户进行翻译,并将译文文本添加到其语料库中。 谷歌的服务可能会对IBM等公司的翻译软件的销售造成影响,但是自动翻译也不可能变成谷歌的摇钱树,至少用谷歌的广告业务收益标准来衡量是如此。不过谷歌的在线翻译能在其他几个方面获得收益。 由于谷歌的广告遍及全球网络,凡是能提高网络用户使用便捷性的服务都会使谷歌受益。而且在线翻译可能挖掘到有趣的新应用。上周谷歌宣布将使用语音识别技术为英语的YouTube视频生成字幕,这些英文字幕能被翻译成其他50多种语言。 “这项技术能消除语言之间的障碍,”负责谷歌机器翻译团队的首席科学家弗朗兹·奥奇(Franz Och)说道,“有了它,任何人都能畅通无阻地交流。” 奥奇之前曾是就职于南加州大学(University of Southern California)的德裔科学家。他回顾说起初他不太愿意加入谷歌,担心谷歌只是把机器翻译作为一个边缘项目。后来谷歌的另一位创始人拉里·佩奇(Larry Page)给他打了电话,消除了他的疑虑。 “他说机器翻译对谷歌的发展至关重要,”于是奥奇2004年加入了谷歌。 当许多类似谷歌翻译的系统工具使用多达十亿单词的文本来创建语言模型时,谷歌的词汇量已达到数百亿。奥奇说:“处理的文本越多,所建的语言模型就会越好。” 他们的努力得到了回报。一年后,谷歌在一次由美国政府组织的高级翻译系统测试中胜出。 谷歌用类似的方法——超强的计算能力,海量的数据及统计方法——处理其他复杂问题。比如,2007年谷歌开始提供800-GOOG-411(免费名录辅助服务)处理语音问询。凭借着这项服务,谷歌搜集到成千上万人的语音资料,以便提高其识别英语口语的能力。 一年后谷歌推出了语音搜索系统,该系统足以媲美那些其他公司耗费数年才建立起来的类似系统。 去年年底,谷歌又推出了一项名为“Goggles”的服务,该服务分析手机图片并与上十亿张的网络图片进行匹配,包括来自谷歌街景(Street View)服务的街道图片。 奥奇承认说谷歌的翻译系统仍有待完善,但它正在越变越好,“目前谷歌在线翻译系统的质量改进曲线仍在急剧上升。” (本文译自New York Times网站)